Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Controlar correctamente los valores que faltan es una parte importante del modelado eficaz. En esta sección se explica qué son los valores que faltan y se describen las características proporcionadas en Analysis Services para trabajar con valores que faltan al compilar estructuras de minería de datos y modelos de minería de datos.
Definición de valores que faltan en la minería de datos
Un valor que falta puede indicar una serie de cosas diferentes. Quizás el campo no era aplicable, el evento no se produjo o los datos no están disponibles. Podría ser que la persona que escribió los datos no conocía el valor correcto o no le importaba si no se rellenaba un campo.
Sin embargo, hay muchos escenarios de minería de datos en los que los valores que faltan proporcionan información importante. El significado de los valores que faltan depende en gran medida del contexto. Por ejemplo, un valor que falta para la fecha en una lista de facturas tiene un significado sustancialmente diferente de la falta de una fecha en la columna que indica una fecha de contratación de empleados. Por lo general, Analysis Services trata los valores que faltan como informativos y ajusta las probabilidades de incorporar los valores que faltan en sus cálculos. Al hacerlo, puede asegurarse de que los modelos están equilibrados y no ponderan demasiado los casos existentes.
Por lo tanto, Analysis Services proporciona dos mecanismos distintos para administrar y calcular valores que faltan. El primer método controla el control de valores NULL en el nivel de la estructura de minería de datos. El segundo método difiere en la implementación de cada algoritmo, pero generalmente define cómo se procesan y cuentan los valores que faltan en los modelos que permiten valores NULL.
Especificación del manejo de valores NULL
En el origen de datos, los valores que faltan pueden representarse de muchas maneras: como valores NULL, como celdas vacías en una hoja de cálculo, como el valor N/A o algún otro código, o como un valor artificial como 9999. Sin embargo, para fines de minería de datos, solo los valores NULL se consideran valores que faltan. Si los datos contienen valores de marcador de posición en lugar de null, pueden afectar a los resultados del modelo, por lo que debe reemplazarlos por valores NULL o deducir valores correctos si es posible. Hay una variedad de herramientas que puede usar para deducir y rellenar los valores adecuados, como la transformación Búsqueda o la tarea Generador de perfiles de datos en SQL Server Integration Services, o la herramienta Fill By Example proporcionada en el Add-Ins de minería de datos para Excel.
Si la tarea que está modelando especifica que una columna nunca debe tener valores que faltan, debe aplicar la NOT_NULL marca de modelado a la columna al definir la estructura de minería de datos. Esta marca indica que se debe producir un error en el procesamiento si un caso no tiene un valor adecuado. Si este error se produce al procesar un modelo, puede registrar el error y tomar medidas para corregir los datos proporcionados al modelo.
Cálculo del estado que falta
Para el algoritmo de minería de datos, los valores que faltan son informativos. En el caso de las tablas, Missing es un estado válido como cualquier otro. Además, un modelo de minería de datos puede usar otros valores para predecir si falta un valor. En otras palabras, el hecho de que falta un valor no es un error.
Al crear un modelo de minería de datos, se agrega automáticamente un Missing estado al modelo para todas las columnas discretas. Por ejemplo, si la columna de entrada [Gender] contiene dos valores posibles, Male y Female, se agrega automáticamente un tercer valor para representar el Missing valor y el histograma que muestra la distribución de todos los valores de la columna siempre incluye un recuento de los casos con Missing valores. Si la columna Género no falta ningún valor, el histograma muestra que el estado Faltante se encuentra en 0 casos.
La justificación de incluir el Missing estado de forma predeterminada se vuelve clara cuando se considera que los datos podrían no tener ejemplos de todos los valores posibles y no desearía que el modelo excluya la posibilidad simplemente porque no había ningún ejemplo en los datos. Por ejemplo, si los datos de ventas de una tienda mostraron que todos los clientes que compraron un determinado producto pasaron a ser mujeres, no querría crear un modelo que predice que solo las mujeres podían comprar el producto. En su lugar, Analysis Services agrega un marcador de posición para el valor desconocido adicional, denominado Missing, como una manera de acomodar posibles otros estados.
Por ejemplo, en la tabla siguiente se muestra la distribución de valores para el nodo (All) en el modelo de árbol de decisión creado para el tutorial Bike Buyer. En el escenario de ejemplo, la columna [Bike Buyer] es el atributo de predicción, donde 1 indica "Sí" y 0 indica "No".
| Importancia | Casos |
|---|---|
| 0 | 9296 |
| 1 | 9098 |
| Desaparecido | 0 |
Esta distribución muestra que aproximadamente la mitad de los clientes han comprado una bicicleta, y la mitad no. Este conjunto de datos concreto es muy limpio; por lo tanto, cada caso tiene un valor en la columna [Bike Buyer] y el recuento de Missing valores es 0. Sin embargo, si algún caso tuviera un valor NULL en el campo [Bike Buyer], Analysis Services contaría esa fila como caso con un Missing valor.
Si la entrada es una columna continua, el modelo tabula dos estados posibles para el atributo: Existing y Missing. En otras palabras, la columna contiene un valor de algún tipo de datos numérico o no contiene ningún valor. En los casos que tienen un valor, el modelo calcula la media, la desviación estándar y otras estadísticas significativas. En los casos que no tienen ningún valor, el modelo proporciona un recuento de los Missing valores y ajusta las predicciones en consecuencia. El método para ajustar la predicción difiere en función del algoritmo y se describe en la sección siguiente.
Nota:
En el caso de los atributos de una tabla anidada, los valores que faltan no son informativos. Por ejemplo, si un cliente no ha comprado un producto, la tabla Products anidada no tendría una fila correspondiente a ese producto y el modelo de minería de datos no crearía un atributo para el producto que falta. Sin embargo, si está interesado en los clientes que no han comprado determinados productos, puede crear un modelo filtrado por la no existencia de los productos en la tabla anidada, mediante una instrucción NOT EXISTS en el filtro de modelo. Para obtener más información, vea Aplicar un filtro a un modelo de minería de datos.
Ajustar la probabilidad de los estados que faltan
Además de contar valores, Analysis Services calcula la probabilidad de cualquier valor en el conjunto de datos. Lo mismo sucede con el Missing valor . Por ejemplo, en la tabla siguiente se muestran las probabilidades de los casos del ejemplo anterior:
| Importancia | Casos | Probabilidad |
|---|---|---|
| 0 | 9296 | 50,55% |
| 1 | 9098 | 49.42% |
| Desaparecido | 0 | 0,03 % |
Puede parecer extraño que la probabilidad del Missing valor se calcule como 0,03%, cuando el número de casos es 0. De hecho, este comportamiento es por diseño y representa un ajuste que permite al modelo controlar los valores desconocidos correctamente.
En general, la probabilidad se calcula como los casos favorables divididos por todos los casos posibles. En este ejemplo, el algoritmo calcula la suma de los casos que cumplen una condición determinada ([Bike Buyer] = 1 o [Bike Buyer] = 0) y divide ese número por el recuento total de filas. Sin embargo, para tener en cuenta los Missing casos, 1 se agrega al número de todos los casos posibles. Como resultado, la probabilidad del caso desconocido ya no es cero, sino un número muy pequeño, lo que indica que el estado es meramente improbable, no imposible.
La adición del valor pequeño Missing no cambia el resultado del predictor; sin embargo, permite un mejor modelado en escenarios en los que los datos históricos no incluyen todos los resultados posibles.
Nota:
Los proveedores de minería de datos difieren en la forma en que controlan los valores que faltan. Por ejemplo, algunos proveedores asumen que los datos faltantes en una columna anidada son una representación escasa, pero que los datos faltantes en una columna no anidada se pierden al azar.
Si está seguro de que todos los resultados se especifican en los datos y quiere evitar que se ajusten las probabilidades, debe establecer la etiqueta de modelado NOT_NULL en la columna de la estructura de minería de datos.
Nota:
Cada algoritmo, incluidos los algoritmos personalizados que puede haber obtenido de un complemento de terceros, puede controlar los valores que faltan de forma diferente.
Control especial de valores que faltan en los modelos de árbol de decisión
El algoritmo de árboles de decisión de Microsoft calcula las probabilidades de que falten valores de forma diferente a en otros algoritmos. En lugar de agregar solo 1 al número total de casos, el algoritmo de árboles de decisión se ajusta para el Missing estado mediante una fórmula ligeramente diferente.
En un modelo de árbol de decisión, la probabilidad del estado se calcula de la Missing siguiente manera:
ProbabilidadEstado = (ProbabilidadPrioriNodo) * (ApoyoEstado + 1) / (ApoyoNodo + TotalEstados)
Además, en SQL Server 2014 Analysis Services (SSAS), el algoritmo árboles de decisión proporciona un ajuste adicional que ayuda al algoritmo a compensar la presencia de filtros en el modelo, lo que puede dar lugar a que muchos estados se excluyan durante el entrenamiento.
En SQL Server 2014, si un estado está presente durante el entrenamiento, pero simplemente tiene cero compatibilidad con un nodo determinado, se realiza el ajuste estándar. Sin embargo, si nunca se encuentra un estado durante el entrenamiento, el algoritmo establece la probabilidad en exactamente cero. Este ajuste no solo se aplica al Missing estado, sino también a otros estados que existen en los datos de entrenamiento, pero que tienen cero compatibilidad como resultado del filtrado de modelos.
Este ajuste adicional da como resultado la siguiente fórmula:
StateProbability = 0,0 si ese estado tiene 0 compatibilidad con el conjunto de entrenamiento
ELSE ProbabilidadDeEstado = (ProbabilidadPreviaDelNodo) * (SoporteDeEstado + 1) / (SoporteDelNodo + TotalDeEstadosConSoporteNoCero)
El efecto neto de este ajuste es mantener la estabilidad del árbol.
Tareas relacionadas
En los temas siguientes se proporciona más información sobre cómo controlar los valores que faltan.
| Tareas | Enlaces |
|---|---|
| Agregar marcas a columnas de modelo individuales para controlar el control de los valores que faltan | Ver o cambiar marcas de modelado (minería de datos) |
| Configurar propiedades en un modelo de minería de datos para controlar el manejo de los valores que faltan | Cambiar las propiedades de un modelo de minería de datos |
| Aprenda a especificar marcas de modelado en DMX | Marcas de modelado (DMX) |
| Modificar la forma en que la estructura de minería gestiona los valores que faltan | Cambiar las propiedades de una estructura de minería |
Véase también
Contenido del modelo de minería de datos (Servicios de Análisis - Minería de datos)
Indicadores de Modelado (Minería de Datos)