Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Un gráfico de elevación representa gráficamente la mejora que proporciona un modelo de minería de datos al compararlo con una estimación aleatoria y mide el cambio en términos de la puntuación de elevación. Al comparar las puntuaciones de elevación de varias partes del conjunto de datos y para diferentes modelos, puede determinar qué modelo es mejor y qué porcentaje de los casos del conjunto de datos se beneficiarían de aplicar las predicciones del modelo.
Con un gráfico de elevación, puede comparar la precisión de las predicciones de varios modelos que tienen el mismo atributo de predicción. También puede evaluar la precisión de la predicción para un único resultado (un valor único del atributo de predicción) o para todos los resultados (todos los valores del atributo especificado).
Un gráfico de beneficios es un tipo de gráfico relacionado que contiene la misma información que un gráfico de elevación, pero también muestra el aumento proyectado en beneficio asociado al uso de cada modelo.
Comprensión del gráfico de elevación
Puede ser difícil entender las curvas de elevación en abstracto. Por lo tanto, para ilustrar el uso de las herramientas de gráfico de levantamiento y la información del gráfico, esta sección presenta un escenario en el que se usa un gráfico de levantamiento para estimar la respuesta de una campaña de correo directo.
El departamento de marketing en este escenario sabe que una tasa de respuesta del 10 por ciento es más o menos típica de las campañas de correo. Tienen una lista de 10 000 clientes potenciales almacenados en una tabla de la base de datos. En función de la tasa de respuesta típica, normalmente solo podían esperar aproximadamente 1000 clientes potenciales para responder. Sin embargo, el dinero presupuestado para el proyecto no es suficiente para llegar a los 10 000 clientes de la base de datos y quieren mejorar su tasa de respuesta. Supongamos en este escenario que su presupuesto les permite enviar un anuncio a solo 5000 clientes. El departamento de marketing tiene dos opciones:
Seleccione aleatoriamente 5000 clientes a los que dirigirse.
Use un modelo de minería de datos para dirigirse a los 5000 clientes que tienen más probabilidades de responder.
Mediante un gráfico de elevación, puede comparar los resultados esperados de ambas opciones. Por ejemplo, si la empresa seleccionó aleatoriamente 5000 clientes, podría esperar recibir solo 500 respuestas, en función de la tasa de respuesta típica. Este escenario es el que representa la línea aleatoria del gráfico de elevación. Sin embargo, si el departamento de marketing usó un modelo de minería de datos para dirigirse a su correo, podría esperar una mejor tasa de respuesta porque el modelo identificaría a los clientes que probablemente respondan. Si el modelo fuera perfecto, crearía predicciones que nunca son incorrectas y la empresa podría esperar recibir 1000 respuestas enviando el correo solo a los 1000 clientes potenciales recomendados por el modelo. Este escenario es el que representa la línea ideal del gráfico de elevación.
La realidad es que el modelo de minería de datos probablemente cae entre estos dos extremos; entre una estimación aleatoria y una predicción perfecta. Cualquier mejora respecto a una estimación aleatoria se considera como un incremento (lift).
Al crear un gráfico de ganancia, puede establecer como objetivo un valor específico y medir la ganancia solo para ese resultado, o crear una evaluación general del modelo que mida las ganancias para todos los resultados posibles. Estas selecciones afectan al gráfico final, como se describe en las secciones siguientes.
Gráfico de levantamiento con valor objetivo
En el gráfico siguiente se muestra un gráfico de elevación para el modelo de correo dirigido que se crea en el Tutorial básico de minería de datos. En este gráfico, el atributo de destino es [Bike Buyer] y el valor de destino es 1, lo que significa que se predice que el cliente compre una bicicleta. El gráfico de elevación muestra así la mejora que proporciona el modelo al identificar estos clientes potenciales.
Este gráfico contiene varios modelos basados en los mismos datos. Uno de estos modelos se ha personalizado para dirigirse a clientes específicos. Puede personalizar un modelo agregando filtros en los datos usados para entrenar el modo. Este filtro restringe los casos usados en el entrenamiento y la evaluación a los clientes menores de 30 años. Observe que un efecto del filtrado es que el modelo básico y el modelo filtrado usan diferentes conjuntos de datos y, por tanto, el número de casos usados para la evaluación en el gráfico de elevación también es diferente. Este punto es importante recordar al interpretar los resultados de la predicción y otras estadísticas.
El eje X del gráfico representa el porcentaje del conjunto de datos de prueba que se usa para comparar las predicciones. El eje y del gráfico representa el porcentaje de valores previstos.
La línea recta diagonal, que se muestra aquí en azul, aparece en cada gráfico. Representa los resultados de la estimación aleatoria y es la línea base con la que evaluar la mejora. Para cada modelo que agregue a un gráfico de elevación, obtendrá dos líneas adicionales: una línea muestra los resultados ideales para el conjunto de datos de entrenamiento si podría crear un modelo que siempre predijo perfectamente y la segunda línea muestra la elevación real, o la mejora en los resultados, para el modelo.
En este ejemplo, la línea ideal para el modelo filtrado se muestra en azul oscuro y la línea para la elevación real en amarillo. Puedes observar en el gráfico que la línea ideal alcanza su punto máximo alrededor del 40 por ciento, esto significa que si tuvieras un modelo perfecto, podrías alcanzar el 100 por ciento de tus clientes objetivo si envías un correo a solo 40% de la población total. El incremento real del modelo filtrado cuando se apunta al 40 por ciento de la población está entre el 60 y el 70 por ciento, lo que significa que podría alcanzar el 60-70 por ciento de los clientes objetivo mediante el envío de correos al 40 por ciento de la población total de clientes.
La Mining Legend contiene los valores reales de cualquier punto en las curvas. Puede cambiar el lugar que se mide haciendo clic en la barra gris vertical y moviéndolo. En el gráfico, la línea gris se ha movido al 30 por ciento, ya que es el punto en el que los modelos filtrados y sin filtrar parecen ser más eficaces, y a partir de este punto disminuye el efecto.
La Leyenda de Minería también contiene puntuaciones y estadísticas que te ayudan a interpretar el gráfico. Estos resultados representan la precisión del modelo en la línea gris, que en este escenario se coloca para incluir el 30 % de los casos de prueba generales.
| Serie y modelo | Puntuación | Población de destino | Predicción de probabilidad |
|---|---|---|---|
| Envío de correo dirigido a todos | 0.71 | 47.40% | 61.38% |
| Envío dirigido para menores de 30 años | 0,85 | 51.81% | 46.62% |
| Modelo de estimación aleatoria | 31.00% | ||
| Modelo ideal para: Envío de correo dirigido a todos | 62.48% | ||
| Modelo ideal para: Correo directo dirigido a menores de 30 años | 65.28% |
Interpretación de los resultados
A partir de estos resultados, puede ver que, cuando se mide en el 30 por ciento de todos los casos, el modelo general, [Targeted mailing all], puede predecir el comportamiento de compra de bicicletas de 47,40% de la población objetivo. En otras palabras, si envió un correo dirigido a solo el 30 % de los clientes de la base de datos, podría alcanzar algo menos de la mitad de la audiencia objetivo. Si usó el modelo filtrado, podría obtener resultados ligeramente mejores y alcanzar aproximadamente el 51 % de los clientes de destino.
El valor de Predicción de probabilidad representa el umbral necesario para incluir a un cliente entre los casos de "probable compra". Para cada caso, el modelo calcula la precisión de cada predicción y almacena ese valor, que puede usar para filtrar o dirigir las acciones hacia los clientes. Por ejemplo, para identificar a los clientes del modelo básico que probablemente son compradores, usaría una consulta para recuperar casos con una probabilidad de predicción de al menos el 61 %. Para obtener los clientes de destino del modelo filtrado, crearía una consulta que recuperara los casos que cumplen todos los criterios: edad y un valor de al menos el PredictProbability 46 %.
Es interesante comparar los modelos. El modelo filtrado parece capturar más clientes potenciales, pero cuando se dirige a los clientes con una puntuación de probabilidad de predicción del 46 por ciento, también tiene una probabilidad del 53 por ciento de enviar un correo a alguien que no comprará una bicicleta. Por lo tanto, si estuviera decidiendo qué modelo es mejor, querría equilibrar la mayor precisión y el tamaño de destino más pequeño del modelo filtrado contra la selectividad del modelo básico.
El valor para Score le ayuda a comparar modelos calculando la eficacia del modelo en una población normalizada. Una puntuación más alta es mejor, por lo que, en este caso, puede decidir que dirigirse a los clientes menores de 30 es la estrategia más eficaz, a pesar de la menor probabilidad de predicción.
Gráfico de Elevación del Modelo sin Valor Objetivo
Si no especifica el estado de la columna de predicción, cree el tipo de gráfico que se muestra en el diagrama siguiente. En este gráfico se muestra cómo funciona el modelo para todos los estados del atributo de predicción. Por ejemplo, este gráfico le indicará qué tan bien predice el modelo tanto los clientes que probablemente compren una bicicleta como los que no es probable que compren una bicicleta.
El eje X es el mismo que en el gráfico con la columna de predicción especificada, pero el eje Y representa ahora el porcentaje de predicciones correctas. Por lo tanto, la línea ideal es la línea diagonal, que muestra que en el 50 por ciento de los datos, el modelo predice correctamente 50% de los casos, el máximo que se puede esperar.
:
Puede hacer clic en el gráfico para mover la barra gris vertical y la Leyenda de minería de datos muestra el porcentaje de casos en general y el porcentaje de casos que se predijeron correctamente. Por ejemplo, si coloca el control deslizante gris en la marca del 50 por ciento, la Leyenda de Minería muestra las siguientes puntuaciones de precisión. Estas cifras se basan en el modelo de árbol de TM_Decision creado en el Tutorial básico de minería de datos.
| Serie, modelo | Puntuación | Población de destino | Predicción de probabilidad |
|---|---|---|---|
| Árbol de Decisión TM | 0,77 | 40,50% | 72.91% |
| Modelo ideal | 50,00% |
En esta tabla se indica que, en el 50 por ciento de la población, el modelo que creó predice correctamente el 40 por ciento de los casos. Puede considerar este modelo razonablemente preciso. Sin embargo, recuerde que este modelo concreto predice todos los valores del atributo de predicción. Por lo tanto, el modelo podría ser preciso para predecir que el 90 % de los clientes no comprará una bicicleta.
Restricciones en gráficos de elevación
Los gráficos de elevación requieren que el atributo de predicción sea un valor discreto. Es decir, no puede usar gráficos de elevación para medir la precisión de los modelos que predicen valores numéricos continuos.
La precisión de predicción de todos los valores discretos del atributo de predicción se muestra en una sola línea. Si desea ver las líneas de precisión de predicción para cualquier valor individual del atributo de predicción, debe crear un gráfico de elevación independiente para cada valor de destino.
Puede agregar varios modelos a un gráfico de elevación, siempre y cuando todos tengan el mismo atributo de predicción. Los modelos que no comparten el atributo no estarán disponibles para la selección en la pestaña Entrada .
No se pueden mostrar modelos de serie temporal en un gráfico de elevación o gráfico de beneficios. Una práctica común para medir la precisión de las predicciones de series temporales es reservar una parte de los datos históricos y comparar esos datos con las predicciones. Para obtener más información, consulte Algoritmo de serie temporal de Microsoft.