Compartir a través de


Matriz de clasificación (Analysis Services - Minería de datos)

Una matriz de clasificación ordena todos los casos del modelo en categorías, al determinar si el valor previsto coincide con el valor real. Todos los casos de cada categoría se cuentan y los totales se muestran en la matriz. La matriz de clasificación es una herramienta estándar para la evaluación de modelos estadísticos y a veces se conoce como matriz de confusión.

El gráfico que se crea al elegir la opción Matriz de clasificación compara los valores reales con los valores previstos para cada estado previsto que especifique. Las filas de la matriz representan los valores previstos para el modelo, mientras que las columnas representan los valores reales. Las categorías usadas en el análisis son falsos positivos, verdaderos positivos, falsos negativos y verdaderos negativos.

Una matriz de clasificación es una herramienta importante para evaluar los resultados de la predicción, ya que facilita la comprensión y la cuenta de los efectos de las predicciones incorrectas. Al ver la cantidad y los porcentajes de cada celda de esta matriz, puede ver rápidamente la frecuencia con la que el modelo predijo con precisión.

En esta sección se explica cómo crear una matriz de clasificación y cómo interpretar los resultados.

Descripción de la matriz de clasificación

Considere el modelo que creó como parte del tutorial básico sobre minería de datos. El modelo [TM_DecisionTree] se usa para ayudar a crear una campaña de correo dirigida y se puede usar para predecir qué clientes tienen más probabilidades de comprar una bicicleta. Para probar esta utilidad esperada de este modelo, use un conjunto de datos para el que ya se conocen los valores del atributo de resultado, [Bike Buyer]. Normalmente, usaría el conjunto de datos de prueba que reservaste al crear la estructura de minería que se usa para entrenar el modelo.

Solo hay dos resultados posibles: sí (es probable que el cliente compre una bicicleta) y no (es probable que el cliente no compre una bicicleta). Por lo tanto, la matriz de clasificación resultante es relativamente sencilla.

Interpretación de los resultados

En la tabla siguiente se muestra la matriz de clasificación del modelo de TM_DecisionTree. Recuerde que para este atributo de predicción, 0 significa No y 1 significa Sí.

Previsto 0 (real) 1 (real)
0 362 144
1 121 373

La primera celda de resultado, que contiene el valor 362, indica el número de verdaderos positivos para el valor 0. Dado que 0 indica que el cliente no compró una bicicleta, esta estadística le indica que el modelo predijo el valor correcto para los no compradores de bicicletas en 362 casos.

La celda situada directamente debajo de esa, que contiene el valor 121, indica el número de falsos positivos, o cuántas veces el modelo predijo que alguien compraría una bicicleta cuando realmente no lo hiciera.

La celda que contiene el valor 144 indica el número de falsos positivos para el valor 1. Dado que 1 significa que el cliente compró una bicicleta, esta estadística le indica que en 144 casos, el modelo predijo que alguien no compraría una bicicleta cuando de hecho lo hicieran.

Por último, la celda que contiene el valor 373 indica el número de verdaderos positivos para el valor de destino de 1. En otras palabras, en 373 casos el modelo predijo correctamente que alguien compraría una bicicleta.

Al sumar los valores de las celdas que están diagonalmente adyacentes, puede determinar la precisión general del modelo. Una diagonal indica el número total de predicciones precisas y la otra indica el número total de predicciones erróneas.

Uso de varios valores de predicción

El caso [Bike Buyer] es especialmente fácil de interpretar porque solo hay dos valores posibles. Cuando el atributo de predicción tiene varios valores posibles, la matriz de clasificación agrega una nueva columna para cada valor real posible y, a continuación, cuenta el número de coincidencias para cada valor previsto. En la tabla siguiente se muestran los resultados en un modelo diferente, donde se pueden realizar tres valores (0, 1, 2).

Previsto 0 (real) 1 (real) 2 (actual)
0 111 3 5
1 2 123 17
2 19 0 20

Aunque la adición de más columnas hace que el informe sea más complejo, el detalle adicional puede ser muy útil cuando desea evaluar el costo acumulativo de hacer la predicción incorrecta. Para crear sumas en las diagonales o comparar los resultados de diferentes combinaciones de filas, puede hacer clic en el botón Copiar proporcionado en la pestaña Matriz de clasificación y pegar el informe en Excel. Como alternativa, puede usar un cliente como el cliente de minería de datos para Excel, que admite SQL Server 2005 y versiones posteriores, para crear un informe de clasificación directamente en Excel que incluya tanto recuentos como porcentajes. Para obtener más información, vea Minería de datos de SQL Server.

Restricciones en la matriz de clasificación

Una matriz de clasificación solo se puede usar con atributos de predicción discretos.

Aunque puede agregar varios modelos al seleccionar modelos en la pestaña Selección de entrada del diseñador gráfico de precisión de minería de datos, la pestaña Matriz de clasificación mostrará una matriz independiente para cada modelo.

Los temas siguientes contienen más información sobre cómo crear y usar matrices de clasificación y otros gráficos.

Temas Enlaces
Proporciona un tutorial sobre cómo crear un gráfico de elevación para el modelo de correo dirigido. Tutorial básico de minería de datos

Prueba de precisión con gráficos de elevación (Tutorial básico de minería de datos)
Explica los tipos de gráfico relacionados. Gráfico de elevación (Analysis Services - Minería de datos)

Gráfico de beneficios (Analysis Services - Minería de datos)

Gráfico de dispersión (Analysis Services - Minería de datos)
Describe los usos de la validación cruzada para los modelos de minería de datos y las estructuras de minería de datos. Validación cruzada (Analysis Services - Minería de datos)
Describe los pasos para crear gráficos de elevación y otros gráficos de precisión. Tareas y procedimientos de prueba y validación (minería de datos)

Véase también

Pruebas y validación (minería de datos)