Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
El algoritmo de regresión lineal de Microsoft es una versión especial del algoritmo de árboles de decisión de Microsoft que está optimizado para modelar pares de atributos continuos. En este tema se explica la implementación del algoritmo, se describe cómo personalizar el comportamiento del algoritmo y se proporcionan vínculos a información adicional sobre los modelos de consulta.
Implementación del algoritmo de regresión lineal
El algoritmo de árboles de decisión de Microsoft se puede usar para muchas tareas: regresión lineal, clasificación o análisis de asociaciones. Para implementar este algoritmo con el fin de la regresión lineal, los parámetros del algoritmo se controlan para restringir el crecimiento del árbol y mantener todos los datos del modelo en un solo nodo. Es decir, aunque la regresión lineal se basa en un árbol de decisión, el árbol contiene solo una raíz y ninguna rama: todos los datos residen en el nodo raíz.
Para ello, el parámetro MINIMUM_LEAF_CASES del algoritmo se establece como mayor o igual que el número total de casos que usa el algoritmo para entrenar el modelo de minería de datos. Con el parámetro establecido de esta manera, el algoritmo nunca creará una división y, por tanto, realiza una regresión lineal.
La ecuación que representa la línea de regresión toma la forma general de y = ax + b y se conoce como ecuación de regresión. La variable Y representa la variable de salida, X representa la variable de entrada y a y b son coeficientes ajustables. Puede recuperar los coeficientes, intersecciones y otra información sobre la fórmula de regresión consultando el modelo de minería completado. Para obtener más información, vea Ejemplos de consultas de modelo de regresión lineal.
Métodos de puntuación y selección de características
Todos los algoritmos de minería de datos de Analysis Services usan automáticamente la selección de características para mejorar el análisis y reducir la carga de procesamiento. El método utilizado para la selección de características en regresión lineal es la puntuación de interés, ya que el modelo solo admite columnas continuas. Como referencia, en la tabla siguiente se muestra la diferencia en la selección de características para el algoritmo de regresión lineal y el algoritmo árboles de decisión.
| Algoritmo | Método de análisis | Comentarios |
|---|---|---|
| Regresión lineal | Puntuación de interés | Predeterminado. Otros métodos de selección de características que están disponibles con el algoritmo árboles de decisión solo se aplican a variables discretas y, por lo tanto, no son aplicables a los modelos de regresión lineal. |
| Árboles de decisión | Puntuación de interés Entropía de Shannon Bayesiano con K2 Prior Bayesian Dirichlet con un prior uniforme (valor predeterminado) |
Si alguna columna contiene valores continuos no binarios, la puntuación de interés se usa para todas las columnas, para garantizar la coherencia. De lo contrario, se usa el método predeterminado o especificado. |
Los parámetros de algoritmo que controlan la selección de características de un modelo de árboles de decisión se MAXIMUM_INPUT_ATTRIBUTES y MAXIMUM_OUTPUT.
Personalización del algoritmo de regresión lineal
El algoritmo de regresión lineal de Microsoft admite parámetros que afectan al comportamiento, el rendimiento y la precisión del modelo de minería de datos resultante. También puede establecer indicadores de modelado en las columnas del modelo de minería o en las columnas de la estructura de minería para controlar la forma en que se procesan los datos.
Establecer parámetros de algoritmo
En la tabla siguiente se enumeran los parámetros proporcionados para el algoritmo de regresión lineal de Microsoft.
| Parámetro | Descripción |
|---|---|
| ATRIBUTOS_DE_ENTRADA_MÁXIMOS | Define el número de atributos de entrada que el algoritmo puede controlar antes de invocar la selección de características. Establezca este valor en 0 para desactivar la selección de características. El valor predeterminado es 255. |
| MAXIMUM_OUTPUT_ATTRIBUTES | Define el número de atributos de salida que el algoritmo puede controlar antes de invocar la selección de características. Establezca este valor en 0 para desactivar la selección de características. El valor predeterminado es 255. |
| FORCE_REGRESSOR | Obliga al algoritmo a usar las columnas indicadas como regresores, independientemente de la importancia de las columnas calculadas por el algoritmo. |
Banderas de modelado
El algoritmo de regresión lineal de Microsoft admite las siguientes marcas de modelado. Al crear la estructura de minería o el modelo de minería, se definen indicadores de modelado para especificar cómo se gestionan los valores de cada columna durante el análisis. Para obtener más información, vea Modeling Flags (Data Mining).
| Bandera de modelado | Descripción |
|---|---|
| NO NULO | Indica que la columna no puede contener un valor NULL. Se producirá un error si Analysis Services encuentra un valor NULL durante el entrenamiento del modelo. Se aplica a las columnas de la estructura minera. |
| Regresor | Indica que la columna contiene valores numéricos continuos que se deben tratar como posibles variables independientes durante el análisis. Nota: Marcar una columna como un regresor no garantiza que la columna se usará como un regresor en el modelo final. Se aplica a las columnas del modelo de minería de datos. |
Regresores en modelos de regresión lineal
Los modelos de regresión lineal se basan en el algoritmo de árboles de decisión de Microsoft. Sin embargo, aunque no use el algoritmo de regresión lineal de Microsoft, cualquier modelo de árbol de decisión puede contener un árbol o nodos que representen una regresión en un atributo continuo.
No es necesario especificar que una columna continua represente un regresor. El algoritmo de árboles de decisión de Microsoft dividirá el conjunto de datos en regiones con patrones significativos aunque no establezca la marca REGRESSOR en la columna. La diferencia es que al establecer la marca de modelado, el algoritmo intentará buscar ecuaciones de regresión con el formato a*C1 + b*C2 + ... para ajustarse a los patrones de los nodos del árbol. La suma de los valores residuales se calcula y, si la desviación es demasiado grande, se realiza una división en el árbol.
Por ejemplo, si va a predecir el comportamiento de compra de los clientes mediante Income como atributo y establece la marca de modelado REGRESSOR en la columna, el algoritmo intentará primero ajustarse a los valores de Income mediante una fórmula de regresión estándar. Si la desviación es demasiado grande, la fórmula de regresión se abandona y el árbol se dividiría en algún otro atributo. Después, el algoritmo de árbol de decisión intentaría ajustar un regresor para los ingresos en cada una de las ramas tras la división.
Puede usar el parámetro FORCED_REGRESSOR para garantizar que el algoritmo usará un regresor determinado. Este parámetro se puede usar con los árboles de decisión de Microsoft y los algoritmos de regresión lineal de Microsoft.
Requisitos
Un modelo de regresión lineal debe contener una columna de clave, columnas de entrada y al menos una columna de predicción.
Columnas de entrada y predicción
El algoritmo de regresión lineal de Microsoft admite las columnas de entrada específicas y las columnas de predicción que se enumeran en la tabla siguiente. Para obtener más información sobre lo que significan los tipos de contenido cuando se usan en un modelo de minería de datos, vea Tipos de contenido (minería de datos).
| Columna | Tipos de contenido |
|---|---|
| Atributo de entrada | Continuo, cíclico, clave, tabla y ordenado |
| Atributo de predicción | Continuo, cíclico y ordenado |
Nota:
Cyclical Se admiten tipos de contenido y Ordered , pero el algoritmo los trata como valores discretos y no realiza un procesamiento especial.
Véase también
Algoritmo de regresión lineal de Microsoft
Ejemplos de consultas del modelo de regresión lineal
Contenido del modelo de minería para modelos de regresión lineal (Analysis Services - Minería de datos)