Compartir a través de


Algoritmo de árboles de decisión de Microsoft

El algoritmo de árboles de decisión de Microsoft es un algoritmo de clasificación y regresión proporcionado por Microsoft SQL Server Analysis Services para su uso en el modelado predictivo de atributos discretos y continuos.

En el caso de los atributos discretos, el algoritmo realiza predicciones basadas en las relaciones entre las columnas de entrada de un conjunto de datos. Usa los valores, conocidos como estados, de esas columnas para predecir los estados de una columna que designa como predecible. En concreto, el algoritmo identifica las columnas de entrada que están correlacionadas con la columna de predicción. Por ejemplo, en un escenario para predecir qué clientes probablemente compren una bicicleta, si nueve de cada diez clientes más jóvenes compran una bicicleta, pero solo dos de cada diez clientes más antiguos lo hacen, el algoritmo deduce que la edad es un buen indicador de la compra de bicicletas. El árbol de decisión realiza predicciones basadas en esta tendencia hacia un resultado determinado.

En el caso de los atributos continuos, el algoritmo usa la regresión lineal para determinar dónde se divide un árbol de decisión.

Si se establece más de una columna en predecible o si los datos de entrada contienen una tabla anidada establecida en predecible, el algoritmo crea un árbol de decisión independiente para cada columna predecible.

Ejemplo

El departamento de marketing de la empresa Adventure Works Cycles quiere identificar las características de los clientes anteriores que podrían indicar si es probable que esos clientes compren un producto en el futuro. La base de datos AdventureWorks2012 almacena información demográfica que describe a los clientes anteriores. Mediante el uso del algoritmo de árboles de decisión de Microsoft para analizar esta información, el departamento de marketing puede crear un modelo que prediga si un cliente determinado comprará productos, en función de los estados de las columnas conocidas sobre ese cliente, como datos demográficos o patrones de compra anteriores.

Funcionamiento del algoritmo

El algoritmo de árboles de decisión de Microsoft crea un modelo de minería de datos mediante la creación de una serie de divisiones en el árbol. Estas divisiones se representan como nodos. El algoritmo agrega un nodo al modelo cada vez que se encuentra que una columna de entrada está significativamente correlacionada con la columna predecible. La forma en que el algoritmo determina una división es diferente en función de si predice una columna continua o una columna discreta.

El algoritmo árboles de decisión de Microsoft usa la selección de características para guiar la selección de los atributos más útiles. Todos los algoritmos de minería de datos de Analysis Services usan la selección de características para mejorar el rendimiento y la calidad del análisis. La selección de características es importante para evitar que los atributos no importantes usen el tiempo del procesador. Si usa demasiados atributos de entrada o predicción al diseñar un modelo de minería de datos, el modelo puede tardar mucho tiempo en procesarse o incluso agotarse la memoria. Los métodos usados para determinar si se debe dividir el árbol incluyen métricas estándar del sector para la entropía y las redes bayesianas*.* Para obtener más información sobre los métodos usados para seleccionar atributos significativos y, a continuación, puntuar y clasificar los atributos, vea Selección de características (minería de datos) .

Un problema común en los modelos de minería de datos es que se vuelven demasiado sensibles a las pequeñas diferencias en los datos de entrenamiento, en cuyo caso se dice que están sobreajustados o sobreentrenados. Un modelo sobreajustado no se puede generalizar en otros conjuntos de datos. Para evitar el sobreajuste en cualquier conjunto determinado de datos, el algoritmo árboles de decisión de Microsoft usa técnicas para controlar el crecimiento del árbol. Para obtener una explicación más detallada de cómo funciona el algoritmo de árboles de decisión de Microsoft, consulte Referencia técnica del algoritmo de árboles de decisión de Microsoft.

Predicción de columnas discretas

La forma en que el algoritmo de árboles de decisión de Microsoft crea un árbol para una columna de predicción discreta se puede demostrar mediante un histograma. En el diagrama siguiente se muestra un histograma que representa una columna predecible, Compradores de Bicicletas, frente a una columna de entrada, Edad. El histograma muestra que la edad de una persona ayuda a distinguir si esa persona comprará una bicicleta.

Histograma del algoritmo de árboles de decisión de Microsoft

La correlación que se muestra en el diagrama provocaría que el algoritmo de árboles de decisión de Microsoft cree un nuevo nodo en el modelo.

Nodo de árbol de decisión

A medida que el algoritmo agrega nuevos nodos a un modelo, se forma una estructura de árbol. El nodo superior del árbol describe el desglose de la columna predecible para la población total de clientes. A medida que el modelo sigue creciendo, el algoritmo considera todas las columnas.

Predicción de columnas continuas

Cuando el algoritmo de árboles de decisión de Microsoft crea un árbol basado en una columna de predicción continua, cada nodo contiene una fórmula de regresión. Una división se produce en un punto de no linealidad en la fórmula de regresión. Por ejemplo, considere el siguiente diagrama.

Varias líneas de regresión que muestran la no linealidad

El diagrama contiene datos que se pueden modelar mediante una sola línea o mediante dos líneas conectadas. Sin embargo, una sola línea haría un trabajo deficiente de representar los datos. En su lugar, si usa dos líneas, el modelo realizará un trabajo mucho mejor de aproximar los datos. El punto en el que se unen las dos líneas es el punto de no linealidad y es el punto en el que un nodo de un modelo de árbol de decisión se dividiría. Por ejemplo, el nodo que corresponde al punto de no linealidad del gráfico anterior podría representarse mediante el diagrama siguiente. Las dos ecuaciones representan las ecuaciones de regresión de las dos líneas.

Ecuación que representa un punto de no linealidad

Datos necesarios para los modelos de árbol de decisión

Al preparar los datos para su uso en un modelo de árboles de decisión, debe comprender los requisitos para el algoritmo concreto, incluida la cantidad de datos que se necesitan y cómo se usan los datos.

Los requisitos de un modelo de árboles de decisión son los siguientes:

  • Una sola columna de clave Cada modelo debe contener una columna numérica o de texto que identifique de forma única cada registro. No se permiten claves compuestas.

  • Una columna predecible Requiere al menos una columna de predicción. Puede incluir varios atributos de predicción en un modelo y los atributos de predicción pueden ser de diferentes tipos, numéricos o discretos. Sin embargo, aumentar el número de atributos predecibles puede aumentar el tiempo de procesamiento.

  • Columnas de entrada Requiere columnas de entrada, que pueden ser discretas o continuas. Aumentar el número de atributos de entrada afecta al tiempo de procesamiento.

Para obtener información más detallada sobre los tipos de contenido y los tipos de datos admitidos para los modelos de árbol de decisión, consulte la sección Requisitos de referencia técnica del algoritmo de árboles de decisión de Microsoft.

Visualización de un modelo de árboles de decisión

Para explorar el modelo, puede usar el Visor de árboles de Microsoft. Si el modelo genera varios árboles, puede seleccionar un árbol y el visor muestra un desglose de cómo se clasifican los casos para cada atributo de predicción. También puede ver la interacción de los árboles mediante el visor de red de dependencias. Para obtener más información, vea Examinar un modelo mediante el Visor de árboles de Microsoft.

Si desea obtener más información sobre cualquier rama o nodo del árbol, también puede examinar el modelo mediante el Visor de árboles de contenido genérico de Microsoft. El contenido almacenado para el modelo incluye la distribución de todos los valores de cada nodo, probabilidades en cada nivel del árbol y fórmulas de regresión para atributos continuos. Para obtener más información, vea Contenido del modelo de minería de datos para los modelos de árbol de decisión (Analysis Services - Minería de datos).

Creación de predicciones

Una vez procesado el modelo, los resultados se almacenan como un conjunto de patrones y estadísticas, que puede usar para explorar relaciones o realizar predicciones.

Para obtener ejemplos de consultas que se usarán con un modelo de árboles de decisión, consulte Ejemplos de consultas de modelos de árboles de decisión.

Para obtener información general sobre cómo crear consultas en modelos de minería de datos, consulte Consultas de minería de datos.

Observaciones

  • Admite el uso del lenguaje de marcado de modelos predictivos (PMML) para crear modelos de minería de datos.

  • Admite la obtención de detalles.

  • Admite el uso de modelos de minería de datos OLAP y la creación de dimensiones de minería de datos.

Véase también

Algoritmos de minería de datos (Analysis Services - Minería de datos)Referencia técnica del algoritmo de Árboles de decisión de MicrosoftEjemplos de consultas de modelos de árboles de decisiónContenido del modelo de minería para los modelos de árboles de decisión (Analysis Services - Minería de datos)