Compartir a través de


Algoritmo de agrupación en clústeres de Microsoft

El algoritmo de agrupación en clústeres de Microsoft es un algoritmo de segmentación proporcionado por Analysis Services. El algoritmo usa técnicas iterativas para agrupar casos de un conjunto de datos en clústeres que contienen características similares. Estas agrupaciones son útiles para explorar datos, identificar anomalías en los datos y crear predicciones.

Los modelos de agrupación en clústeres identifican las relaciones de un conjunto de datos que es posible que no derive lógicamente a través de una observación casual. Por ejemplo, puede distinguir lógicamente que las personas que viajan a sus trabajos por bicicleta no suelen vivir una larga distancia desde donde trabajan. Sin embargo, el algoritmo puede encontrar otras características sobre los viajeros de bicicleta que no son tan obvios. En el diagrama siguiente, el clúster A representa datos sobre las personas que tienden a conducir a trabajar, mientras que el clúster B representa los datos sobre las personas que tienden a montar bicicletas para trabajar.

Patrón de agrupamiento de tendencias de viajeros patrón

El algoritmo de agrupación en clústeres difiere de otros algoritmos de minería de datos, como el algoritmo de árboles de decisión de Microsoft, en el que no es necesario designar una columna predecible para poder crear un modelo de agrupación en clústeres. El algoritmo de agrupación en clústeres entrena el modelo estrictamente a partir de las relaciones que existen en los datos y de los clústeres que identifica el algoritmo.

Ejemplo

Considere un grupo de personas que comparten información demográfica similar y que compran productos similares de la empresa Adventure Works. Este grupo de personas representa un clúster de datos. Varios de estos clústeres pueden existir en una base de datos. Al observar las columnas que componen un clúster, puede ver con más claridad cómo los registros de un conjunto de datos están relacionados entre sí.

Funcionamiento del algoritmo

El algoritmo de agrupación en clústeres de Microsoft identifica primero las relaciones de un conjunto de datos y genera una serie de clústeres basados en esas relaciones. Un gráfico de dispersión es una manera útil de representar visualmente cómo agrupa los datos del algoritmo, como se muestra en el diagrama siguiente. El gráfico de dispersión representa todos los casos del conjunto de datos y cada caso es un punto del gráfico. Los clústeres agrupan puntos en el gráfico y ilustran las relaciones que identifica el algoritmo.

Gráfico de dispersión de casos en un conjunto de datos

Después de definir primero los clústeres, el algoritmo calcula la calidad de los clústeres que representan las agrupaciones de los puntos y, a continuación, intenta volver a definir las agrupaciones para crear clústeres que representen mejor los datos. El algoritmo recorre en iteración este proceso hasta que no puede mejorar más los resultados mediante la redefinición de los clústeres.

Puede personalizar la forma en que funciona el algoritmo seleccionando una técnica de agrupación en clústeres, limitando el número máximo de clústeres o cambiando la cantidad de compatibilidad necesaria para crear un clúster. Para obtener más información, consulte Referencia técnica del algoritmo de agrupación en clústeres de Microsoft.

Datos necesarios para los modelos de agrupación en clústeres

Al preparar los datos para su uso en el entrenamiento de un modelo de agrupación en clústeres, debe comprender los requisitos del algoritmo concreto, incluida la cantidad de datos que se necesitan y cómo se usan los datos.

Los requisitos de un modelo de agrupación en clústeres son los siguientes:

  • Una sola columna de clave Cada modelo debe contener una columna numérica o de texto que identifique de forma única cada registro. No se permiten claves compuestas.

  • Columnas de entrada Cada modelo debe contener al menos una columna de entrada que contenga los valores que se usan para compilar los clústeres. Puede tener tantas columnas de entrada como desee, pero dependiendo del número de valores de cada columna, la adición de columnas adicionales puede aumentar el tiempo necesario para entrenar el modelo.

  • Columna de predicción opcional El algoritmo no necesita una columna de predicción para compilar el modelo, pero puede agregar una columna predecible de casi cualquier tipo de datos. Los valores de la columna predecible se pueden tratar como entrada para el modelo de agrupación, o puede especificar que se use solo para la predicción. Por ejemplo, si desea predecir los ingresos de los clientes agrupando datos demográficos como región o edad, especificaría ingresos como PredictOnly y agregaría todas las demás columnas, como región o edad, como entradas.

Para obtener información más detallada sobre los tipos de contenido y los tipos de datos admitidos para los modelos de agrupación en clústeres, consulte la sección Requisitos de referencia técnica del algoritmo de clústeres de Microsoft.

Visualización de un modelo de agrupación en clústeres

Para explorar el modelo, puede usar el Visor de clústeres de Microsoft. Al ver un modelo de agrupación en clústeres, Analysis Services muestra los clústeres en un diagrama que muestra las relaciones entre clústeres y también proporciona un perfil detallado de cada clúster, una lista de los atributos que distinguen a cada clúster de los demás y las características de todo el conjunto de datos de entrenamiento. Para obtener más información, vea Examinar un modelo mediante el Visor de clústeres de Microsoft.

Si desea conocer más detalles, puede examinar el modelo en el Visor de árbol de contenido genérico de Microsoft. El contenido almacenado para el modelo incluye la distribución de todos los valores de cada nodo, la probabilidad de cada clúster y otra información. Para obtener más información, vea Contenido del modelo de minería de datos para los modelos de agrupación en clústeres (Analysis Services - Minería de datos).

Creación de predicciones

Una vez entrenado el modelo, los resultados se almacenan como un conjunto de patrones, que puede explorar o usar para realizar predicciones.

Puede crear consultas para devolver predicciones sobre si los nuevos datos encajan en los clústeres detectados o para obtener estadísticas descriptivas sobre los clústeres.

Para obtener información sobre cómo crear consultas en un modelo de minería de datos, consulte Consultas de minería de datos. Para obtener ejemplos de cómo usar consultas con un modelo de agrupación en clústeres, consulte Ejemplos de consultas de modelos de agrupación en clústeres.

Observaciones

  • Admite el uso del lenguaje de marcado de modelos predictivos (PMML) para crear modelos de minería de datos.

  • Admite la obtención de detalles.

  • Admite el uso de modelos de minería de datos OLAP y la creación de dimensiones de minería de datos.

Véase también

Algoritmos de minería de datos (Analysis Services - Minería de datos)Referencia técnica del algoritmo de agrupación en clústeres de MicrosoftContenido del modelo de minería para los modelos de agrupación en clústeres (Analysis Services - Minería de datos)Ejemplos de consultas de modelos de agrupación en clústeres