Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
El algoritmo de regresión logística de Microsoft es una variación del algoritmo de red neuronal de Microsoft, donde el parámetro HIDDEN_NODE_RATIO se establece en 0. Esta configuración creará un modelo de red neuronal que no contiene una capa oculta y, por tanto, equivale a la regresión logística.
Implementación del algoritmo de regresión logística de Microsoft
Supongamos que la columna predicha contiene solo dos estados, pero todavía desea realizar un análisis de regresión, relacionando las columnas de entrada con la probabilidad de que la columna predicha contenga un estado específico. En el diagrama siguiente se muestran los resultados que obtendrá si asigna 1 y 0 a los estados de la columna de predicción, calcula la probabilidad de que la columna contenga un estado específico y realice una regresión lineal en una variable de entrada.
El eje x contiene valores de una columna de entrada. El eje y contiene las probabilidades de que la columna de predicción sea un estado u otro. El problema con esto es que la regresión lineal no restringe la columna a estar entre 0 y 1, aunque sean los valores máximos y mínimos de la columna. Una manera de resolver este problema es realizar la regresión logística. En lugar de crear una línea recta, el análisis de regresión logística crea una curva con forma "S" que contiene restricciones máximas y mínimas. Por ejemplo, en el diagrama siguiente se muestran los resultados que obtendrá si realiza una regresión logística con los mismos datos que se usan en el ejemplo anterior.
Observe cómo la curva nunca va por encima de 1 o por debajo de 0. Puede usar la regresión logística para describir qué columnas de entrada son importantes para determinar el estado de la columna de predicción.
Selección de características
Todos los algoritmos de minería de datos de Analysis Services usan automáticamente la selección de características para mejorar el análisis y reducir la carga de procesamiento. El método utilizado para la selección de características en un modelo de regresión logística depende del tipo de datos del atributo. Dado que la regresión logística se basa en el algoritmo de red neuronal de Microsoft, usa un subconjunto de los métodos de selección de características que se aplican a las redes neuronales. Para obtener más información, consulte Selección de características (minería de datos).
Datos de puntuación
La puntuación en el contexto de un modelo de red neuronal o un modelo de regresión logística significa el proceso de convertir los valores presentes en los datos en un conjunto de valores que usan la misma escala y, por tanto, se pueden comparar entre sí. Por ejemplo, supongamos que las entradas de Ingresos oscilan entre 0 y 100 000, mientras que las entradas para [Número de niños] van de 0 a 5. Este proceso de conversión permite puntuar o comparar la importancia de cada entrada, independientemente de la diferencia en los valores.
Para cada estado que aparece en el conjunto de entrenamiento, el modelo genera una entrada. Para las entradas discretas o discretizadas, se crea una entrada adicional para representar el estado faltante, si este estado aparece al menos una vez en el conjunto de entrenamiento. En el caso de las entradas continuas, se crean como máximo dos nodos de entrada: uno para valores que faltan, si están presentes en los datos de entrenamiento y una entrada para todos los valores existentes o no NULL. Cada entrada se escala a un formato numérico mediante el método de normalización z-score( x - μ)/StdDev.
Durante la normalización de la puntuación z, la media (μ) y la desviación estándar se obtienen sobre el conjunto de entrenamiento completo.
Valores continuos
El valor está presente: (X - μ)/σ // X es el valor real que se está codificando).
El valor está ausente: - μ/σ // negativo mu dividido por sigma)
Valores discretos
μ = p : (la probabilidad anterior de un estado)
StdDev = sqrt(p(1-p))
El valor está presente: (1 - μ)/σ// (Uno menos mu) dividido por sigma)
El valor está ausente: (- μ)/σ// mu negativa dividida por sigma)
Descripción de los coeficientes de regresión logística
Hay varios métodos en la literatura estadística para realizar la regresión logística, pero una parte importante de todos los métodos es evaluar el ajuste del modelo. Se han propuesto una variedad de estadísticas de bondad a ajuste, entre ellas, las tasas de probabilidades y los patrones de covariante. Una explicación de cómo medir el ajuste de un modelo está fuera del ámbito de este tema; sin embargo, puede recuperar el valor de los coeficientes del modelo y usarlos para diseñar sus propias medidas de ajuste.
Nota:
Los coeficientes creados como parte de un modelo de regresión logística no representan relaciones de probabilidades y no deben interpretarse como tales.
Los coeficientes de cada nodo del gráfico de modelos representan una suma ponderada de las entradas a ese nodo. En un modelo de regresión logística, la capa oculta está vacía; por lo tanto, solo hay un conjunto de coeficientes, que se almacena en los nodos de salida. Puede recuperar los valores de los coeficientes mediante la consulta siguiente:
SELECT FLATTENED [NODE_UNIQUE NAME],
(SELECT ATTRIBUTE_NAME< ATTRIBUTE_VALUE
FROM NODE_DISTRIBUTION) AS t
FROM <model name>.CONTENT
WHERE NODE_TYPE = 23
Para cada valor de salida, esta consulta devuelve los coeficientes y un identificador que apunta de nuevo al nodo de entrada relacionado. También devuelve una fila que contiene el valor de la salida y el intercepto. Cada entrada X tiene su propio coeficiente (Ci), pero la tabla anidada también contiene un coeficiente "libre" (Co), calculado según la fórmula siguiente:
F(X) = X1*C1 + X2*C2 + ... +Xn*Cn + X0
Activación: exp(F(X)) / (1 + exp(F(X)) )
Para obtener más información, vea Ejemplos de consultas del modelo de regresión logística.
Personalización del algoritmo de regresión logística
El algoritmo de regresión logística de Microsoft admite varios parámetros que afectan al comportamiento, el rendimiento y la precisión del modelo de minería de datos resultante. También puede modificar el comportamiento del modelo estableciendo marcas de modelado en las columnas usadas como entrada.
Establecer parámetros de algoritmo
En la tabla siguiente se describen los parámetros que se pueden usar con el algoritmo de regresión logística de Microsoft.
HOLDOUT_PERCENTAGE Especifica el porcentaje de casos dentro de los datos de entrenamiento usados para calcular el error de espera. HOLDOUT_PERCENTAGE se utiliza como parte de los criterios de parada al entrenar el modelo de minería de datos.
El valor predeterminado es 30.
HOLDOUT_SEED Especifica un número que se usará para inicializar el generador pseudoaleatorio al determinar aleatoriamente los datos de espera. Si HOLDOUT_SEED se establece en 0, el algoritmo genera la semilla basada en el nombre del modelo de minería, para garantizar que el contenido del modelo permanezca igual durante el reprocesamiento.
El valor predeterminado es 0.
MAXIMUM_INPUT_ATTRIBUTES Define el número de atributos de entrada que el algoritmo puede controlar antes de invocar la selección de características. Establezca este valor en 0 para desactivar la selección de características.
El valor predeterminado es 255.
MAXIMUM_OUTPUT_ATTRIBUTES Define el número de atributos de salida que el algoritmo puede controlar antes de invocar la selección de características. Establezca este valor en 0 para desactivar la selección de características.
El valor predeterminado es 255.
MAXIMUM_STATES Especifica el número máximo de estados de atributo que admite el algoritmo. Si el número de estados que tiene un atributo es mayor que el número máximo de estados, el algoritmo usa los estados más populares del atributo y omite los estados restantes.
El valor predeterminado es 100.
SAMPLE_SIZE Especifica el número de casos que se usarán para entrenar el modelo. El proveedor de algoritmos usa este número o el porcentaje del total de casos que no se incluyen en el porcentaje de exclusión según lo especificado por el parámetro HOLDOUT_PERCENTAGE, el valor que sea menor.
Es decir, si HOLDOUT_PERCENTAGE se establece en 30, el algoritmo usará el valor de este parámetro o un valor que sea igual al 70 por ciento del número total de casos, lo que sea menor.
El valor predeterminado es 10000.
Indicadores de modelado
Se admiten las siguientes marcas de modelado para su uso con el algoritmo de regresión logística de Microsoft.
NOT NULL Indica que la columna no puede contener un valor NULL. Se producirá un error si Analysis Services encuentra un valor NULL durante el entrenamiento del modelo.
Se aplica a las columnas de la estructura de minería de datos.
MODEL_EXISTENCE_ONLY Significa que la columna se tratará como si tuviera dos estados posibles: Missing y Existing. Un valor NULL es un valor que falta.
Se aplica a la columna del modelo minero.
Requisitos
Un modelo de regresión logística debe contener una columna de clave, columnas de entrada y al menos una columna de predicción.
Columnas de entrada y predicción
El algoritmo de regresión logística de Microsoft admite los tipos de contenido de columna de entrada específicos, los tipos de contenido de columna predecible y las marcas de modelado que se enumeran en la tabla siguiente. Para obtener más información sobre lo que significan los tipos de contenido cuando se usan en un modelo de minería de datos, vea Tipos de contenido (minería de datos).
| Columna | Tipos de contenido |
|---|---|
| Atributo de entrada | Continuo, Discreto, Discretizado, Clave, Tabla |
| Atributo de predicción | Continuo, Discreto, Discretizado |
Véase también
Algoritmo de regresión logística de MicrosoftEjemplos de consulta de modelo de regresión linealContenido del modelo de minería para modelos de regresión logística (Analysis Services - Minería de datos)Algoritmo de red neuronal de Microsoft