Compartir a través de


Matriz de clasificación (complementos de minería de datos de SQL Server)

Botón Matriz de Clasificación,

Puede usar la matriz de clasificación para evaluar la precisión de un modelo para la predicción. Para generar una matriz de clasificación, ejecute un conjunto de datos de prueba a través del modelo y la herramienta de matriz de clasificación compare los valores reales del conjunto de pruebas con las predicciones realizadas por el modelo. Al examinar la matriz, puede indicar de un vistazo la frecuencia con la que el modelo es correcto y la frecuencia con la que predice erróneamente.

En estos complementos, use el Asistente para matrices de clasificación para seleccionar un modelo, especificar los datos de prueba y, a continuación, generar una matriz de resultados.

Cómo leer una matriz de clasificación

Supongamos que su objetivo es diseñar un programa de fidelidad de clientes y, a continuación, asignar clientes a las categorías adecuadas para que pueda proporcionarles el nivel adecuado de incentivos. Ha implementado tres niveles para el programa de recompensas (bronce, plata y oro) y los ha dado a los clientes en una fase de prueba. También ha diseñado un modelo que analiza a los clientes y predice las categorías correctas. Ahora usará la matriz de clasificación en los datos de prueba para determinar el buen estado del modelo al predecir la oferta correcta para todos los clientes.

La tabla de la matriz de clasificación indica cuántos clientes se asignarían a cada categoría en función del modelo y compara ese resultado con el número de clientes que se registraron realmente para cada nivel de recompensa.

Bronce (actual) Oro (real) Plata (actual)
Bronce 94.45% 15.18% 1,70%
Oro 2,72 % 84.82% 0,00%
Plata 1.84% 0,00% 93.80%
Correcto 95.45% 84.82% 98.30%
Clasificados erróneamente 4.55% 15.18% 1,70%
  • Cada columna muestra los valores reales del conjunto de datos de prueba.

  • Cada fila muestra los valores previstos.

  • Los valores en negrita, que se extienden diagonalmente desde la esquina superior izquierda hasta la esquina inferior derecha de la matriz, le dan una imagen de lo que el modelo acertó.

  • Todos los demás valores fuera de la diagonal representan errores. Algunos errores son falsos positivos, lo que significa que el modelo predijo que el cliente se uniría al programa gold, pero estaba equivocado. Dependiendo de su dominio, los falsos positivos pueden ser muy costosos.

    Otros son falsos negativos, lo que significa que el modelo predijo que el cliente no estaría interesado a pesar de que se unió al programa. De nuevo, dependiendo del dominio del problema, este costo de oportunidad perdido podría ser significativo.

Usar el Asistente para matrices de clasificación

  1. Seleccione el modelo de minería de datos en el que se van a basar las predicciones.

  2. Seleccione un origen de nuevos datos de prueba o use los datos de prueba guardados con la estructura .

  3. Seleccione la columna para la que desea evaluar la precisión. Solo puede elegir una columna al crear una matriz, pero la columna puede tener varios valores.

    Sugerencia: puede ser difícil interpretar una matriz de clasificación si la columna de predicción tiene muchas columnas que se van a comparar.

    En la página Seleccionar columnas para predecir , también puede especificar si desea mostrar el recuento de valores incorrectos e incorrectos o mostrar un porcentaje.

  4. En la página Seleccionar datos de origen, indique si usa datos de prueba externos o los datos de prueba guardados con el modelo.

  5. Si utiliza datos de prueba externos, debe mapear el modelo a las columnas de entrada en la página Especificar relación del asistente.

    Si utiliza el conjunto de datos de prueba integrado, la asignación se realiza automáticamente.

  6. Haga clic en Finalizar para ejecutar predicciones en el modelo y generar la matriz de clasificación.

    El asistente crea un informe que contiene la matriz de clasificación y otros detalles sobre el análisis. Este informe se guarda como una tabla en Excel, con un resumen anterior al informe que indica cuántos casos se predijeron correctamente y cuántas predicciones fueron incorrectas.

Requisitos

  • Para crear una matriz de clasificación, debe tener acceso a un modelo de minería existente que admita la medición de precisión. Los modelos de previsión y los modelos de asociación no se pueden medir con esta herramienta.

  • El modelo que va a medir necesita predecir un valor discreto o que ya se ha discretizado.

  • Si no usó la opción para guardar un conjunto de pruebas junto con la estructura o el modelo, debe obtener un conjunto de datos de entrada que tenga esencialmente el mismo número de columnas, con tipos de datos coincidentes, como los usados en el modelo.

  • Tanto el modelo de minería de datos como los nuevos datos que usa para las pruebas deben contener al menos una columna que se pueda predecir y las columnas deben contener el mismo tipo de datos.

Problemas conocidos

En SQL Server 2012 y SQL Server 2014, la capacidad de asignar el conjunto de datos de prueba interno al modelo no funciona en la herramienta Matriz de clasificación . Sin embargo, puede especificar un conjunto de datos externo y, a continuación, seleccionar el conjunto de entrenamiento como entrada para determinar el error en el conjunto de datos original.

Véase también

Validar modelos y usar modelos para la predicción (complementos de minería de datos para Excel)
Explorar datos (complementos de minería de datos de SQL Server)
Detectar categorías (Herramientas de análisis de tablas para Excel)