Compartir a través de


Pruebas y validación (minería de datos)

La validación es el proceso de evaluar cómo los modelos de minería de datos se desempeñan frente a datos reales. Es importante validar los modelos de minería de datos mediante la comprensión de su calidad y características antes de implementarlos en un entorno de producción.

En esta sección se presentan algunos conceptos básicos relacionados con la calidad del modelo y se describen las estrategias para la validación de modelos que se proporcionan en Microsoft Analysis Services. Para obtener información general sobre cómo encaja la validación de modelos en el proceso de minería de datos más grande, consulte Soluciones de minería de datos.

Métodos para pruebas y validación de modelos de minería de datos

Hay muchos enfoques para evaluar la calidad y las características de un modelo de minería de datos.

  • Use varias medidas de validez estadística para determinar si hay problemas en los datos o en el modelo.

  • Separe los datos en conjuntos de entrenamiento y pruebas para probar la precisión de las predicciones.

  • Pida a los expertos empresariales que revisen los resultados del modelo de minería de datos para determinar si los patrones detectados tienen significado en el escenario empresarial de destino.

Todos estos métodos son útiles en la metodología de minería de datos y se usan iterativamente al crear, probar y refinar modelos para responder a un problema específico. Ninguna regla completa única puede avisarle cuándo un modelo es lo suficientemente bueno o cuando tiene suficientes datos.

Definición de criterios para validar modelos de minería de datos

Las medidas de minería de datos generalmente se dividen en las categorías de precisión, confiabilidad y utilidad.

La precisión es una medida del grado en que el modelo correlaciona un resultado con los atributos de los datos proporcionados. Hay varias medidas de precisión, pero todas las medidas de precisión dependen de los datos que se usan. En realidad, es posible que falten valores o aproximados, o que varios procesos hayan cambiado los datos. Especialmente en la fase de exploración y desarrollo, puede decidir aceptar una cierta cantidad de error en los datos, especialmente si los datos son bastante uniformes en sus características. Por ejemplo, un modelo que predice las ventas de una tienda determinada en función de las ventas anteriores se puede correlacionar fuertemente y muy precisa, incluso si esa tienda usó de forma coherente el método de contabilidad incorrecto. Por lo tanto, las mediciones de precisión deben equilibrarse mediante evaluaciones de confiabilidad.

La confiabilidad evalúa la forma en que un modelo de minería de datos realiza en diferentes conjuntos de datos. Un modelo de minería de datos es confiable si genera el mismo tipo de predicciones o busca los mismos tipos generales de patrones independientemente de los datos de prueba proporcionados. Por ejemplo, el modelo que genera para el almacén que usó el método de contabilidad incorrecto no se generalizaría bien en otros almacenes y, por lo tanto, no sería confiable.

La utilidad incluye varias métricas que indican si el modelo proporciona información útil. Por ejemplo, un modelo de minería de datos que correlaciona la ubicación del almacén con las ventas podría ser preciso y confiable, pero podría no ser útil, ya que no puede generalizar ese resultado agregando más almacenes en la misma ubicación. Además, no responde a la pregunta empresarial fundamental de por qué ciertas ubicaciones tienen más ventas. También puede encontrar que un modelo que aparece correcto de hecho no tiene sentido, ya que se basa en correlaciones cruzadas en los datos.

Herramientas para pruebas y validación de modelos de minería de datos

Analysis Services admite varios enfoques para la validación de soluciones de minería de datos, que admiten todas las fases de la metodología de prueba de minería de datos.

  • Particionado de datos en conjuntos de prueba y entrenamiento.

  • Filtrado de modelos para entrenar y probar diferentes combinaciones de los mismos datos de origen.

  • Medición de elevación y ganancia. Un gráfico de elevación es un método para visualizar la mejora que obtiene del uso de un modelo de minería de datos, al compararlo con la estimación aleatoria.

  • Realización de la validación cruzada de conjuntos de datos

  • Generación de matrices de clasificación. Estos gráficos ordenan las estimaciones buenas y incorrectas en una tabla para que pueda medir de forma rápida y sencilla la precisión del modelo para predecir el valor de destino.

  • Crear gráficos de dispersión para evaluar el ajuste de una fórmula de regresión.

  • Creación de gráficos de beneficios que asocian ganancias financieras o costos con el uso de un modelo de minería de datos, de modo que pueda evaluar el valor de las recomendaciones.

Estas métricas no tienen como objetivo responder a la pregunta de si el modelo de minería de datos responde a su pregunta empresarial; En su lugar, estas métricas proporcionan medidas objetivas que puede usar para evaluar la confiabilidad de los datos para el análisis predictivo y para guiar la decisión de si usar una iteración determinada en el proceso de desarrollo.

Los temas de esta sección proporcionan información general sobre cada método y le guían por el proceso de medición de la precisión de los modelos que se compilan mediante la minería de datos de SQL Server.

Temas Enlaces
Aprenda a configurar un conjunto de datos de prueba mediante un asistente o comandos DMX. Conjuntos de datos de entrenamiento y pruebas
Aprenda a probar la distribución y la representatividad de los datos en una estructura de minería. Validación cruzada (Analysis Services - Minería de datos)
Obtenga información sobre los tipos de gráfico de precisión proporcionados en SQL Server 2014 Analysis Services (SSAS). Gráfico de elevación (Analysis Services - Minería de datos)

Gráfico de beneficios (Analysis Services - Minería de datos)

Gráfico de dispersión (Analysis Services - Minería de datos)
Aprenda a crear una matriz de clasificación, a veces denominada matriz de confusión, para evaluar el número de verdaderos y falsos positivos y negativos. Matriz de clasificación (Analysis Services - Minería de datos)

Véase también

Herramientas de minería de datos
Soluciones de minería de datos
Tareas y procedimientos de prueba y validación (minería de datos)