Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este tema se describe el contenido del modelo de minería de datos específico de los modelos que usan el algoritmo de regresión lineal de Microsoft. Para obtener una explicación general del contenido del modelo de minería de datos para todos los tipos de modelo, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).
Descripción de la estructura de un modelo de regresión lineal
Un modelo de regresión lineal tiene una estructura extremadamente sencilla. Cada modelo tiene un único nodo primario que representa el modelo y sus metadatos, y un nodo de árbol de regresión (NODE_TYPE = 25) que contiene la fórmula de regresión para cada atributo de predicción.
Los modelos de regresión lineal usan el mismo algoritmo que los árboles de decisión de Microsoft, pero se usan parámetros diferentes para restringir el árbol y solo se aceptan atributos continuos como entradas. Sin embargo, dado que los modelos de regresión lineal se basan en el algoritmo de árboles de decisión de Microsoft, los modelos de regresión lineal se muestran mediante el Visor de árboles de decisión de Microsoft. Para obtener información, vea Examinar un modelo mediante el Visor de árboles de Microsoft.
En la sección siguiente se explica cómo interpretar información en el nodo de fórmula de regresión. Esta información se aplica no solo a los modelos de regresión lineal, sino también a los modelos de árboles de decisión que contienen regresiones en una parte del árbol.
Contenido del modelo para un modelo de regresión lineal
En esta sección se proporcionan detalles y ejemplos solo para esas columnas del contenido del modelo de minería de datos que tienen especial relevancia para la regresión lineal.
Para obtener información sobre las columnas de uso general del conjunto de filas de esquema, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).
CATÁLOGO_DE_MODELOS
Nombre de la base de datos donde se almacena el modelo.
MODEL_NAME
Nombre del modelo.
ATTRIBUTE_NAME
Nodo raíz: Espacio en blanco
Nodo de regresión: Nombre del atributo de predicción.
NODE_NAME
Siempre igual que NODE_UNIQUE_NAME.
NODO_NOMBRE_UNICO
Identificador único del nodo dentro del modelo. Este valor no puede modificarse.
TIPO_DE_NODO
Un modelo de regresión lineal genera los siguientes tipos de nodo:
| Id. de tipo de nodo | Tipo | Descripción |
|---|---|---|
| 25 | Raíz del árbol de regresión | Contiene la fórmula que describe la relación entre la variable de entrada y salida. |
NODE_CAPTION
Etiqueta o título asociado al nodo. Esta propiedad es principalmente para fines de visualización.
Nodo raíz: Espacio en blanco
Nodo de regresión: Todo.
CARDINALIDAD_DE_HIJOS
Estimación del número de nodos hijos que tiene el nodo.
Nodo raíz: Indica el número de nodos de regresión. Se crea un nodo de regresión para cada atributo de predicción del modelo.
Nodo de regresión: Siempre 0.
PARENT_UNIQUE_NAME
Nombre único del elemento primario del nodo. Se devuelve NULL para cualquier nodo en el nivel raíz.
DESCRIPCIÓN_DEL_NODO
Descripción del nodo.
Nodo raíz: Espacio en blanco
Nodo de regresión: Todo.
REGLA_NODO
No se usa para los modelos de regresión lineal.
REGLA MARGINAL
No se usa para los modelos de regresión lineal.
Probabilidad de Nodo
Probabilidad asociada a este nodo.
Nodo raíz: 0
Nodo de regresión: 1
PROBABILIDAD MARGINAL
Probabilidad de alcanzar el nodo desde el nodo primario.
Nodo raíz: 0
Nodo de regresión: 1
NODE_DISTRIBUTION
Tabla anidada que proporciona estadísticas sobre los valores del nodo.
Nodo raíz: 0
Nodo de regresión: Tabla que contiene los elementos usados para compilar la fórmula de regresión. Un nodo de regresión contiene los siguientes tipos de valor:
| VALUETYPE |
|---|
| 1 (Falta) |
| 3 (continuo) |
| 7 (coeficiente) |
| 8 (Ganancia de puntuación) |
| 9 (Estadísticas) |
| 11 (Interceptación) |
SOPORTE_DE_NODO
Número de casos que admiten este nodo.
Nodo raíz: 0
Nodo de regresión: Recuento de casos de entrenamiento.
MSOLAP_MODEL_COLUMN
Nombre del atributo de predicción.
MSOLAP_NODE_SCORE
Igual que NODE_PROBABILITY
MSOLAP_NODE_SHORT_CAPTION
Etiqueta que se usa con fines de visualización.
Observaciones
Cuando se crea un modelo mediante el algoritmo de regresión lineal de Microsoft, el motor de minería de datos crea una instancia especial de un modelo de árboles de decisión y proporciona parámetros que restringen el árbol para contener todos los datos de entrenamiento en un solo nodo. Todas las entradas continuas se marcan y evalúan como posibles regresores, pero solo los regresores que se ajustan a los datos se conservan como regresores en el modelo final. El análisis genera una fórmula de regresión única para cada regresor o ninguna fórmula de regresión.
Para ver la fórmula completa de regresión en el Mining Legend, haga clic en el nodo (Todos) del Visor de árboles de Microsoft.
Además, al crear un modelo de árboles de decisión que incluya un atributo de predicción continuo, a veces el árbol tiene nodos de regresión que comparten las propiedades de los nodos de árbol de regresión.
Distribución de nodos para atributos continuos
La mayoría de la información importante de un nodo de regresión se incluye en la tabla NODE_DISTRIBUTION. En el ejemplo siguiente se muestra el diseño de la tabla NODE_DISTRIBUTION. En este ejemplo, se ha usado la estructura de minería de datos Targeted Mailing para crear un modelo de regresión lineal que predice los ingresos de los clientes en función de la edad. El modelo es únicamente para la ilustración, ya que se puede crear fácilmente usando los datos de ejemplo existentes y la estructura de minería de datos de AdventureWorks2012.
| NOMBRE_DE_ATRIBUTO | ATTRIBUTE_VALUE | SOPORTE TÉCNICO | PROBABILIDAD | VARIANZA | TIPO DE VALOR |
|---|---|---|---|---|---|
| Ingresos anuales | Desaparecido | 0 | 0.000457142857142857 | 0 | 1 |
| Ingresos anuales | 57220.8876687257 | 17484 | 0.999542857142857 | 1041275619.52776 | 3 |
| Edad | 471.687717702463 | 0 | 0 | 126.969442359327 | 7 |
| Edad | 234,680904692439 | 0 | 0 | 0 | 8 |
| Edad | 45.4269617936399 | 0 | 0 | 126.969442359327 | 9 |
| 35793.5477381267 | 0 | 0 | 1012968919.28372 | 11 |
La tabla NODE_DISTRIBUTION contiene varias filas, cada una agrupada por una variable. Las dos primeras filas siempre son tipos de valor 1 y 3 y describen el atributo de destino. Las siguientes filas proporcionan detalles sobre la fórmula de un regresor específico. Un regresor es una variable de entrada que tiene una relación lineal con la variable de salida. Puede tener varios regresores y cada regresor tendrá una fila independiente para el coeficiente (VALUETYPE = 7), ganancia de puntuación (VALUETYPE = 8) y estadísticas (VALUETYPE = 9). Por último, la tabla tiene una fila que contiene la interceptación de la ecuación (VALUETYPE = 11).
Elementos de la fórmula de regresión
La tabla NODE_DISTRIBUTION anidada contiene cada elemento de la fórmula de regresión en una fila independiente. Las dos primeras filas de datos de los resultados del ejemplo contienen información sobre el atributo de predicción, Yearly Income, que modela la variable dependiente. En la columna SUPPORT se muestra el recuento de casos que admiten los dos estados de este atributo: cuando hay un valor de ingresos anuales disponible, o cuando falta el valor de ingresos anuales.
La columna VARIANCE indica la varianza calculada del atributo de predicción. La varianza es una medida de la dispersión de los valores en una muestra, dada una distribución esperada. La varianza aquí se calcula tomando el promedio de la desviación cuadrada de la media. La raíz cuadrada de la varianza también se conoce como desviación estándar. Analysis Services no proporciona la desviación estándar, pero puede calcularla fácilmente.
Para cada regresor, se generan tres filas. Contienen el coeficiente, la ganancia de puntuación y las estadísticas de regresor.
Por último, la tabla contiene una fila que proporciona la interceptación de la ecuación.
Coeficiente
Para cada regresor, se calcula un coeficiente (VALUETYPE = 7). El coeficiente aparece en la columna ATTRIBUTE_VALUE, mientras que la columna VARIANZA indica la varianza del coeficiente. Los coeficientes se calculan para maximizar la linealidad.
Ganancia de puntuación
La ganancia de puntuación (VALUETYPE = 8) para cada regresor representa la puntuación de interés del atributo. Puede usar este valor para calcular la utilidad de varios regresores.
Estadísticas
La estadística de regresor (VALUETYPE = 9) es la media del atributo para los casos que tienen un valor. La columna ATTRIBUTE_VALUE contiene la media en sí, mientras que la columna VARIANZA contiene la suma de desviaciones de la media.
Interseccion.Eje
Normalmente, la interceptación (VALUETYPE = 11) o residual en una ecuación de regresión indica el valor del atributo de predicción, en el punto donde el atributo de entrada es 0. En muchos casos, esto podría no ocurrir y podría dar lugar a resultados contraintuitivos.
Por ejemplo, en un modelo que predice ingresos en función de la edad, es inútil aprender los ingresos a los 0 años. En la vida real, suele ser más útil conocer el comportamiento de la línea con respecto a los valores promedio. Por lo tanto, SQL Server Analysis Services modifica la interceptación para expresar cada regresor en una relación con la media.
Este ajuste es difícil de ver en el contenido del modelo de minería, pero es evidente si observa la ecuación completada en la Leyenda de minería del Visor de árboles de Microsoft. La fórmula de regresión se aleja del punto 0 al punto que representa la media. Esto presenta una vista que es más intuitiva dados los datos actuales.
Por lo tanto, suponiendo que la edad media es de unos 45 años, la interceptación (VALUETYPE = 11) para la fórmula de regresión indica el ingreso medio.
Véase también
Contenido del modelo de minería de datos (Servicios de Análisis - Minería de datos)
Algoritmo de regresión lineal de Microsoft
Referencia técnica del algoritmo de regresión lineal de Microsoft
Ejemplos de consultas del modelo de regresión lineal