Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este tema se describe el contenido del modelo de minería de datos específico de los modelos que usan el algoritmo de árboles de decisión de Microsoft. Para obtener una explicación general del contenido del modelo de minería de datos para todos los tipos de modelo, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos). Es importante recordar que el algoritmo árboles de decisión de Microsoft es un algoritmo híbrido que puede crear modelos con funciones muy diferentes: un árbol de decisión puede representar asociaciones, reglas o incluso regresión lineal. La estructura del árbol es básicamente la misma, pero la forma en que interpreta la información dependerá del propósito para el que creó el modelo.
Descripción de la estructura de un modelo de árboles de decisión
Un modelo de árboles de decisión tiene un único nodo primario que representa el modelo y sus metadatos. Debajo del nodo primario hay árboles independientes que representan los atributos de predicción que seleccione. Por ejemplo, si configura el modelo de árbol de decisión para predecir si los clientes comprarán algo y proporcionarán entradas para el género y los ingresos, el modelo crearía un único árbol para el atributo de compra, con muchas ramas que se dividen en condiciones relacionadas con el género y los ingresos.
Sin embargo, si agrega un atributo de predicción independiente para la participación en un programa de recompensas del cliente, el algoritmo creará dos árboles independientes en el nodo primario. Un árbol contiene el análisis de compra y otro árbol contiene el análisis del programa de recompensas del cliente. Si usa el algoritmo árboles de decisión para crear un modelo de asociación, el algoritmo crea un árbol independiente para cada producto que se va a predecir y el árbol contiene todas las demás combinaciones de productos que contribuyen a la selección del atributo de destino.
Nota:
Si el modelo incluye varios árboles, solo puede ver un árbol a la vez en el Visor de árboles de Microsoft. Sin embargo, en el Visor de árboles de contenido genérico , todos los árboles del mismo modelo se muestran al mismo tiempo.
El árbol de cada atributo de predicción contiene información que describe cómo afectan las columnas de entrada que elija al resultado de ese atributo de predicción concreto. Cada árbol está encabezado por un nodo (NODE_TYPE = 9) que contiene el atributo de predicción, seguido de una serie de nodos (NODE_TYPE = 10) que representan los atributos de entrada. Un atributo corresponde a una columna de nivel de caso o a valores de columnas de tabla anidadas, que suelen ser los valores de la Key columna de la tabla anidada.
Los nodos interiores y los nodos hoja representan condiciones de separación. Un árbol se puede dividir en el mismo atributo varias veces. Por ejemplo, el modelo de TM_DecisionTree podría dividirse en [Ingresos anuales] y [Número de hijos] y, a continuación, dividirse de nuevo en [Ingresos anuales] más abajo del árbol.
El algoritmo de árboles de decisión de Microsoft también puede contener regresiones lineales en todo o parte del árbol. Si el atributo que está modelando es un tipo de datos numérico continuo, el modelo puede crear un nodo de árbol de regresión (NODE_TYPE = 25) siempre que la relación entre los atributos se pueda modelar linealmente. En este caso, el nodo contiene una fórmula de regresión.
Sin embargo, si el atributo de predicción tiene valores discretos o si los valores numéricos se han agrupado o discretizado, el modelo siempre crea un árbol de clasificación (NODE_TYPE =2). Un árbol de clasificación puede tener varias ramas o nodos de árbol interior (NODE_TYPE =3) para cada valor del atributo. Sin embargo, la división no se realiza necesariamente en cada valor del atributo.
El algoritmo de árboles de decisión de Microsoft no permite tipos de datos continuos como entradas; por lo tanto, si alguna columna tiene un tipo de datos numérico continuo, los valores se discretizan. El algoritmo realiza su propia discretización en el punto de una división para todos los atributos continuos.
Nota:
Analysis Services elige automáticamente un método para la agrupación de atributos continuos; sin embargo, puede controlar cómo se discretizan los valores continuos de las entradas estableciendo el tipo de contenido de la columna de la estructura de minería de datos en Discretized, y luego configurando la propiedad DiscretizationBucketCount o la propiedad DiscretizationMethod.
Contenido del modelo para un modelo de árboles de decisión
En esta sección se ofrecen detalles y ejemplos únicamente para aquellas columnas del contenido del modelo de minería que son de especial relevancia para los modelos de árboles de decisión. Para obtener información sobre las columnas de uso general del conjunto de filas de esquema y las explicaciones de la terminología del modelo de minería de datos, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).
CATÁLOGO_DE_MODELOS
Nombre de la base de datos donde se almacena el modelo.
MODEL_NAME
Nombre del modelo.
NOMBRE_DEL_ATRIBUTO
Nombre del atributo que corresponde a este nodo.
NODE_NAME
Siempre igual que NODE_UNIQUE_NAME.
NODO_NOMBRE_UNICO
Identificador único del nodo dentro del modelo. Este valor no puede modificarse.
Para los modelos de árbol de decisión, los nombres únicos siguen la siguiente convención, que no se aplica a todos los algoritmos:
Los nodos secundarios de cualquier nodo determinado tendrán el mismo prefijo hexadecimal, seguido de otro número hexadecimal que representa la secuencia del nodo secundario dentro del elemento primario. Puede usar los prefijos para deducir una ruta de acceso.
TIPO_DE_NODO
En los modelos de árbol de decisión, se crean los siguientes tipos de nodos:
| Tipo de nodo | Descripción |
|---|---|
| 1 (Modelo) | Nodo raíz del modelo. |
| 2 (árbol) | Nodo primario para árboles de clasificación en el modelo. Con la etiqueta "All". |
| 3 (Interior) | Cabeza de rama interior, que se encuentra en un árbol de clasificación o árbol de regresión. |
| 4 (Distribución) | Nodo hoja, que se encuentra dentro de un árbol de clasificación o árbol de regresión. |
| 25 (árbol de regresión) | Nodo primario para el árbol de regresión dentro del modelo. Etiquetado como "Todo". |
Etiqueta de nodo
Nombre amigable para fines de visualización.
Al crear un modelo, el valor de NODE_UNIQUE_NAME se usa automáticamente como título. Sin embargo, puede cambiar el valor de NODE_CAPTION para actualizar el nombre para mostrar del clúster, ya sea mediante programación o mediante el visor. El modelo genera automáticamente el título. El contenido del título depende del tipo de modelo y del tipo de nodo.
En un modelo de árboles de decisión, el NODE_CAPTION y el NODE_DESCRIPTION tienen información diferente, según el nivel del árbol. Para obtener más información y ejemplos, vea Título de nodo y Descripción del nodo.
CARDINALIDAD_DE_HIJOS
Estimación del número de nodos hijos que tiene el nodo.
Nodo primario Indica el número de atributos predecibles que se modelaron. Se crea un árbol para cada atributo de predicción.
Nodo de árbol El nodo All para cada árbol indica cuántos valores se usaron para el atributo de destino.
Si el atributo de destino es discreto, el valor es igual al número de valores distintos más 1 para el
Missingestado.Si el atributo de predicción es continuo, el valor indica cuántos cubos se usaron para modelar el atributo continuo.
Nodos hoja Siempre 0.
NOMBRE_UNICO_DEL_PADRE
Nombre único del elemento primario del nodo. Se devuelve NULL para cualquier nodo en el nivel raíz.
DESCRIPCIÓN_DEL_NODO
Descripción del nodo.
En un modelo de árboles de decisión, el NODE_CAPTION y el NODE_DESCRIPTION tienen información diferente, según el nivel del árbol.
Para obtener más información y ejemplos, vea Título de nodo y Descripción del nodo.
REGLA_NODO
Descripción XML de la regla que describe la ruta de acceso al nodo actual desde su nodo primario inmediato.
Para obtener más información y ejemplos, vea Regla de nodo y Regla marginal.
REGLA MARGINAL
Descripción XML de la regla que describe la ruta de acceso del nodo primario del modelo al nodo actual.
Para obtener más información, consulte Regla de nodo y Regla marginal.
Probabilidad de Nodo
Probabilidad asociada a este nodo.
Para obtener más información, consulte Probabilidad.
PROBABILIDAD MARGINAL
Probabilidad de alcanzar el nodo desde el nodo primario.
Para obtener más información, consulte Probabilidad.
DISTRIBUCIÓN_DE_NODOS
Tabla que contiene el histograma de probabilidad del nodo. La información de esta tabla difiere en función de si el atributo de predicción es una variable continua o discreta.
Nodo raíz del modelo Esta tabla está vacía.
(Todo) nodo Contiene un resumen del modelo como un todo.
Nodo interior contiene las estadísticas agregadas de sus nodos hoja.
Nodo terminal Contiene soporte y probabilidad para los resultados previstos, dadas todas las condiciones del camino que conduce al nodo terminal actual.
Nodo de regresión Contiene la fórmula de regresión que representa la relación entre las entradas y el atributo de predicción.
Para obtener más información, vea Distribución de nodos para atributos discretos y distribución de nodos para atributos continuos.
SOPORTE_DE_NODO
Número de casos que admiten este nodo.
MSOLAP_MODEL_COLUMN
Indica la columna que contiene el atributo de predicción.
MSOLAP_NODE_SCORE
Muestra una puntuación asociada al nodo. Para obtener más información, consulte Puntuación de nodo.
MSOLAP_NODE_SHORT_CAPTION
Etiqueta que se usa con fines de visualización.
Observaciones
Un modelo de árboles de decisión no tiene un nodo independiente que almacena estadísticas para todo el modelo, a diferencia del nodo de estadísticas marginales que se encuentra en un modelo de red neuronal o Bayes naive. En su lugar, el modelo crea un árbol independiente para cada atributo de predicción, con un nodo (All) en la parte superior del árbol. Cada árbol es independiente de los demás. Si el modelo contiene solo un atributo de predicción, solo hay un árbol y, por tanto, solo un nodo (Todos).
Cada árbol que representa un atributo de salida se subdivide además en ramas interiores (NODE_TYPE = 3) que representan divisiones. Cada uno de estos árboles contiene estadísticas sobre la distribución del atributo de destino. Además, cada nodo hoja (NODE_TYPE = 4) contiene estadísticas que describen los atributos de entrada y sus valores, junto con el número de casos que admiten cada par atributo-valor. Por lo tanto, en cualquier rama de un árbol de decisión, puede ver fácilmente las probabilidades o la distribución de datos sin tener que consultar los datos de origen. Cada nivel del árbol representa necesariamente la suma de sus nodos secundarios inmediatos.
Para obtener ejemplos de cómo recuperar estas estadísticas, consulte Ejemplos de consultas de modelos de árboles de decisión.
Ejemplo de estructura de árbol de decisión
Para comprender cómo funciona un árbol de decisión, considere un ejemplo, como el escenario de comprador de bicicletas AdventureWorks. Suponiendo que el atributo de predicción es compras de clientes, el algoritmo de árboles de decisión intenta encontrar una columna de datos, entre todas las entradas proporcionadas, que detecta de forma más eficaz los clientes que probablemente compren una bicicleta y aquellos que no es probable que compren una bicicleta. Por ejemplo, el modelo podría encontrar que Age es el mejor indicador del comportamiento de compra. En concreto, es muy probable que los clientes mayores de 30 años compren una bicicleta, y es poco probable que todos los demás clientes realicen una compra. En este escenario, el modelo crea una división en el atributo Age. Esto significa que el árbol se divide en dos ramas, una que contiene a los clientes mayores de 30 años y la otra que contiene a los clientes menores de 30 años. Las nuevas ramas se representan en la estructura del modelo como dos árboles interiores nuevos (NODE_TYPE = 3).
Para cada rama, el modelo sigue buscando atributos adicionales que se van a usar para diferenciar a los clientes. Si no hay evidencia suficiente en los datos para seguir creando subgrupos de clientes, el modelo deja de crear el árbol. El modelo también dejará de crear el árbol siempre que el número de casos del nodo sea demasiado pequeño para continuar, independientemente de lo buena que sea la división, o si el valor es nulo o está ausente. Al detener el crecimiento del árbol al principio, se impide que el modelo entrene demasiado de cerca a un conjunto determinado de datos.
Cada nodo de árbol interior contiene nodos hoja que proporcionan un desglose de los resultados dados los resultados de clasificación actuales. Por ejemplo, puede tener un nodo interior que represente Age >= 30 y Gender = Male. El nodo de este grupo muestra cuántos clientes de esta categoría compraron o no compraron algo. Por ejemplo, la clasificación podría contener las siguientes divisiones de árbol:
| Árbol interior | Divida |
|---|---|
| Edad >= 30 | Edad >= 30 y Género = Hombre |
| Edad >= 30 y Género = Mujer | |
| Edad < 30 | Edad < 30 y Género = Hombre |
| Edad < 30 y Género = Mujer |
Cuando se usa un modelo de árbol de decisión para la predicción, el modelo toma los atributos que se proporcionan como argumentos y sigue el camino de esos atributos a través del árbol. En general, todas las predicciones van a una hoja y los nodos interiores solo se usan para la clasificación.
Un nodo hoja siempre tiene un NODE_TYPE de 4 (Distribución) y contiene un histograma que indica la probabilidad de cada resultado (compra o no compra) según los atributos que proporcione. Por ejemplo, si solicita una predicción para un nuevo cliente que es un hombre mayor de 60 años, el modelo buscará el nodo correspondiente (Edad > 30 y Género = Macho) y, a continuación, devolverá la probabilidad del resultado que especifique. Estas probabilidades se almacenan en la tabla NODE_DISTRIBUTION para el nodo.
Si el atributo de predicción es un número continuo, el algoritmo intenta crear una fórmula de regresión que modele la relación entre el atributo de predicción y las entradas.
Título de nodo y descripción del nodo
En un modelo de árbol de decisión, el título del nodo y la descripción del nodo contienen información similar. Sin embargo, la descripción del nodo se vuelve más completa y contiene más información a medida que uno se acerca a los nodos hoja. Tanto el título del nodo como la descripción del nodo son cadenas localizadas.
| NODE_CAPTION | Muestra el atributo que distingue ese nodo determinado en relación con el nodo primario. El subtítulo del nodo define un subsegmento de la población en función de la condición de separación. Por ejemplo, si la división estaba en [Age] y era una división triple, los títulos de nodo de los tres nodos secundarios podrían ser "[Age] < 40", "40 <= [Age] < 50", "[Age] >= 50". |
| NODE_DESCRIPTION | Contiene una lista completa de los atributos que distinguen ese nodo de otros nodos, empezando por el nodo primario del modelo. Por ejemplo, Nombre del producto = Apple y Color = Rojo. |
Regla de nodo y regla marginal
Las columnas NODE_RULE y MARGINAL_RULE contienen la misma información que las columnas NODE_CAPTION y NODE_DESCRIPTION, pero representan la información como fragmentos XML. La regla de nodo es una versión XML de la ruta de acceso completa, mientras que la regla marginal indica la división más reciente.
El atributo representado por el fragmento XML puede ser simple o complejo. Un atributo simple contiene el nombre de la columna de modelo y el valor del atributo . Si la columna del modelo contiene una tabla anidada, el atributo de tabla anidada se representa como una concatenación del nombre de la tabla, el valor de clave y el atributo .
Nota:
SQL Server Analysis Services admite la versión 2.0 del estándar PMML, con extensiones para admitir el uso de la tabla anidada. Si los datos contienen tablas anidadas y genera una versión PMML del modelo, todos los elementos del modelo que incluyen los predicados se marcan como una extensión.
Distribución de nodos para atributos discretos
En un modelo de árboles de decisión, la tabla NODE_DISTRIBUTION contiene estadísticas útiles. Sin embargo, el tipo de estadísticas depende de si el árbol predice un atributo discreto o continuo. En esta sección se describe el significado de las estadísticas de distribución de nodos para atributos discretos.
Nombre de atributo y valor de atributo
En un árbol de clasificación, el nombre del atributo siempre contiene el nombre de la columna de predicción. Este valor indica lo que predice el árbol. Dado que un único árbol siempre representa un único atributo de predicción, este valor se repite en todo el árbol.
Para un tipo de datos discreto, el campo valor de atributo enumera los valores posibles de la columna de predicción, además del Missing valor.
Apoyo
El valor de soporte de cada nodo indica cuántos casos están contenidos en este nodo. En el nivel (Todos), debería ver el recuento completo de casos que se usaron para entrenar el modelo. Para cada división del árbol, el valor de soporte es el recuento de casos que se agruparon en ese nodo del árbol. La suma de casos en los nodos hoja necesariamente es igual al recuento de casos en el nodo primario del árbol.
En el caso de los nodos que representan atributos continuos, la presencia de valores NULL en los datos podría provocar algunos resultados contraintuitivos. Por ejemplo, si hay casos m, un valor medio se calcularía como suma(todos los casos)/n, donde n es un número menor que m y m-n indica el recuento de casos con valores que faltan. El soporte también se representa como n.
Probabilidad
La probabilidad asociada a cada nodo indica la probabilidad de que cualquier caso del conjunto de datos completo termine en este nodo determinado. Las puntuaciones de probabilidad se calculan para el árbol en su conjunto y para la división inmediata.
Por ejemplo, en la tabla siguiente se muestra un modelo muy sencillo, con 100 casos.
| Árbol interior | Casos | Nodo hoja | Casos | Probabilidad relativa al nodo primario | Probabilidad relativa al nodo superior |
|---|---|---|---|---|---|
| Edad >= 30 | 60 | Edad >= 30 y Género = Hombre | 50 | 50/60 = .83 | 50/100 = .5 |
| Edad >= 30 y Género = Mujer | 10 | 10/60 = .16 | 10/100 = .10 | ||
| Edad < 30 | 40 | Edad < 30 y Género = Hombre | 30 | 30/40 = .75 | 30/100 = .30 |
| Edad < 30 y Género = Mujer | 10 | 10/40 = .25 | 10/100 = .10 |
Se realiza un pequeño ajuste en todos los modelos para tener en cuenta los posibles valores que faltan. Para los atributos continuos, cada valor o intervalo de valores se representa como un estado (por ejemplo, Edad <30, Edad = 30 y Edad >30) y las probabilidades se calculan de la siguiente manera: el estado existe (valor = 1), existe otro estado (valor = 0), el estado es Missing. Para obtener más información sobre cómo se ajustan las probabilidades para representar valores que faltan, vea Valores que faltan (Analysis Services - Minería de datos).
Las probabilidades de cada nodo se calculan casi directamente desde la distribución, como se indica a continuación:
Probabilidad = (soporte para el estado + soporte para el estado anterior) / (soporte del nodo más el soporte para el nodo anterior)
Analysis Services usa probabilidades para cada nodo para comparar la probabilidad almacenada con la probabilidad anterior para determinar si la ruta de acceso del nodo primario al secundario indica una inferencia fuerte.
Al realizar predicciones, la probabilidad de la distribución debe equilibrarse con la probabilidad del nodo para suavizar las probabilidades. Por ejemplo, si una división en el árbol separa los casos por una proporción de 9000/1000, el árbol está muy desequilibrado. Como resultado, una predicción procedente de la rama pequeña no debe tener el mismo peso que una predicción procedente de una rama con muchos casos.
Desviación
La varianza es una medida de cómo se encuentran los valores dispersos de una muestra, dada una distribución esperada. Para los valores discretos, la varianza es 0 por definición.
Para obtener información sobre cómo se calcula la varianza para los valores continuos, vea Contenido del modelo de minería de datos para modelos de regresión lineal (Analysis Services - Minería de datos).
Tipo de valor
La columna de tipo de valor proporciona información sobre el significado del valor numérico proporcionado en las otras columnas de la tabla NODE_DISTRIBUTION. Puede usar el tipo de valor en las consultas para recuperar filas específicas de las tablas anidadas. Para obtener ejemplos, consulte Ejemplos de consultas de modelos de árboles de decisión.
De los tipos de la MiningValueType enumeración, se usan los siguientes en árboles de clasificación.
| Tipo de valor | Descripción |
|---|---|
| 1 (Falta) | Indica un recuento, probabilidad u otra estadística relacionada con los valores que faltan. |
| 4 (discreto) | Indica un recuento, una probabilidad u otra estadística relacionada con un valor discreto o discretizado. |
Si el modelo incluye un atributo de predicción continuo, el árbol también puede contener tipos de valor que son únicos para las fórmulas de regresión. Para obtener una lista de los tipos de valor que se usan en árboles de regresión, vea Mining Model Content for Linear Regression Models (Analysis Services - Data Mining).
Puntuación de nodo
La puntuación del nodo representa información ligeramente diferente en cada nivel del árbol. En general, la puntuación es un valor numérico que indica qué tan buena fue la división al dividir según la condición. El valor se representa como un doble, donde un valor mayor es mejor.
Por definición, el nodo del modelo y todos los nodos hoja tienen una puntuación de nodo de 0.
Para el nodo (All) que representa la parte superior de cada árbol, la columna MSOLAP_NODE_SCORE contiene la mejor puntuación de división en todo el árbol.
Para todos los demás nodos del árbol (excepto los nodos hoja), la puntuación de cada nodo representa la mejor puntuación de división para el nodo actual, menos la puntuación de división del nodo primario. Normalmente, la puntuación de división de un nodo primario siempre debe ser mejor que la puntuación de división en cualquiera de sus nodos secundarios. Esto se debe a que un modelo de árboles de decisión se divide idealmente en los atributos más importantes primero.
Hay muchas maneras de calcular una puntuación para una división, en función del parámetro de algoritmo que elija. Una explicación de cómo se calculan las puntuaciones para cada uno de los métodos de puntuación está fuera del ámbito de este tema. Para obtener más información, vea "Learning Bayesian Networks: The Combination of Knowledge and Statistical Data", en el sitio web de Microsoft Research.
Nota:
Si crea un modelo de árboles de decisión que tiene atributos de predicción continuos y discretos, verá puntuaciones completamente diferentes en los nodos (Todos) que representan cada tipo de árbol. Cada modelo debe considerarse de forma independiente y los métodos usados para la regresión de puntuación son completamente diferentes de los usados para la clasificación de puntuación. No se pueden comparar los valores de puntuación de nodo.
Nodos de regresión dentro de un modelo de árbol de decisión
Si un modelo de árboles de decisión contiene un atributo de predicción con datos numéricos continuos, el algoritmo de árboles de decisión de Microsoft busca buscar áreas en los datos en los que la relación entre el estado previsto y las variables de entrada es lineal. Si el algoritmo se logra encontrar una relación lineal, crea un árbol especial (NODE_TYPE = 25) que representa una regresión lineal. Estos nodos de árbol de regresión son más complejos que los nodos que representan valores discretos.
En general, una regresión asigna los cambios en la variable dependiente continua (variable predecible) como función de los cambios en las entradas. Si la variable dependiente tiene entradas continuas y la relación entre la entrada y el valor previsto es lo suficientemente estable como para calcularse como un gráfico de líneas, el nodo de la regresión contiene una fórmula.
Sin embargo, si la relación entre la entrada y el valor previsto no es lineal, se crea una división en su lugar, al igual que un árbol de decisión estándar. Por ejemplo, supongamos que A es el atributo de predicción y B y C son las entradas, donde C es un tipo de valor continuo. Si la relación entre A y C es bastante estable en partes de los datos, pero inestables en otras, el algoritmo creará divisiones para representar las distintas áreas de los datos.
| Condición de partición | Resultado en el nodo |
|---|---|
| si n < 5 | La relación se puede expresar como ecuación 1 |
| si n entre 5 y 10 | Sin ecuación |
| si n > 10 | La relación se puede expresar como ecuación 2 |
Para obtener más información sobre los nodos de regresión, vea Contenido del modelo de minería de datos para modelos de regresión lineal (Analysis Services - Minería de datos).
Véase también
Contenido del modelo de minería de datos (Servicios de Análisis - Minería de datos)
Visores de modelos de minería de datos
Consultas de minería de datos
Algoritmo de árboles de decisión de Microsoft