Compartir a través de


Algoritmo de agrupación en clústeres de secuencia de Microsoft

El algoritmo de agrupación en clústeres de secuencia de Microsoft es un algoritmo de análisis de secuencia proporcionado por Microsoft SQL Server Analysis Services. Puede usar este algoritmo para explorar datos que contienen eventos que se pueden vincular siguiendo rutas o secuencias. El algoritmo encuentra las secuencias más comunes agrupando, o agrupando en clústeres, las secuencias idénticas. A continuación se muestran algunos ejemplos de datos que contienen secuencias que se pueden usar para la minería de datos, para proporcionar información sobre problemas comunes o escenarios empresariales:

  • Haga clic en rutas de acceso que se crean cuando los usuarios navegan o exploran un sitio web.

  • Registros que enumeran los eventos anteriores a un incidente, como errores de disco duro o interbloqueos del servidor.

  • Registros de transacciones que describen el pedido en el que un cliente agrega artículos a un carro de la compra en un minorista en línea.

  • Registros que siguen las interacciones del cliente (o paciente) a lo largo del tiempo, para predecir las cancelaciones del servicio u otros resultados deficientes.

Este algoritmo es similar de muchas maneras al algoritmo de agrupación en clústeres de Microsoft. Sin embargo, en lugar de buscar clústeres de casos que contienen atributos similares, el algoritmo de agrupación en clústeres de secuencia de Microsoft busca clústeres de casos que contienen rutas de acceso similares en una secuencia.

Ejemplo

El sitio web Adventure Works Cycles recopila información sobre las páginas que visitan los usuarios del sitio y sobre el orden en que se visitan las páginas. Dado que la empresa proporciona pedidos en línea, los clientes deben iniciar sesión en el sitio. Esto proporciona a la empresa información sobre los clics para cada perfil de cliente. Mediante el algoritmo de agrupación en clústeres de secuencia de Microsoft en estos datos, la empresa puede encontrar grupos o clústeres de clientes que tengan patrones o secuencias de clics similares. Después, la empresa puede usar estos clústeres para analizar cómo los usuarios se mueven a través del sitio web, para identificar qué páginas están más estrechamente relacionadas con la venta de un producto determinado y para predecir qué páginas son más probables que se visiten a continuación.

Funcionamiento del algoritmo

El algoritmo de agrupación en clústeres de secuencia de Microsoft es un algoritmo híbrido que combina técnicas de agrupación en clústeres con el análisis de cadenas de Markov para identificar clústeres y sus secuencias. Una de las características distintivas del algoritmo de agrupación en clústeres de secuencia de Microsoft es que usa datos de secuencia. Estos datos suelen representar una serie de eventos o transiciones entre estados de un conjunto de datos, como una serie de compras de productos o clics web para un usuario determinado. El algoritmo examina todas las probabilidades de transición y mide las diferencias, o distancias, entre todas las secuencias posibles del conjunto de datos para determinar qué secuencias son las mejores para usar como entradas para la agrupación en clústeres. Una vez que el algoritmo haya creado la lista de secuencias candidatas, usa la información de secuencia como entrada para el método EM de agrupación en clústeres.

Para obtener una descripción detallada de la implementación, consulte Referencia técnica del algoritmo de agrupación en clústeres de secuencia de Microsoft.

Datos necesarios para los modelos de agrupación en clústeres de secuencia

Al preparar los datos para su uso en el entrenamiento de un modelo de agrupación en clústeres de secuencia, debe comprender los requisitos para el algoritmo concreto, incluida la cantidad de datos que se necesitan y cómo se usan los datos.

Los requisitos de un modelo de agrupación en clústeres de secuencia son los siguientes:

  • Una sola columna de clave Un modelo de agrupación en clústeres de secuencia requiere una clave que identifique los registros.

  • Una columna de secuencia Para los datos de secuencia, el modelo debe tener una tabla anidada que contenga una columna de identificador de secuencia. El identificador de secuencia puede ser cualquier tipo de datos ordenable. Por ejemplo, puede usar un identificador de página web, un entero o una cadena de texto, siempre que la columna identifique los eventos de una secuencia. Solo se permite un identificador de secuencia para cada secuencia y solo se permite un tipo de secuencia en cada modelo.

  • Atributos opcionales que no son de secuencia El algoritmo admite la adición de otros atributos que no están relacionados con la secuenciación. Estos atributos pueden incluir columnas anidadas.

Por ejemplo, en el ejemplo citado anteriormente del sitio web Adventure Works Cycles, un modelo de agrupación en clústeres de secuencia podría incluir información de pedidos como tabla de casos, datos demográficos sobre el cliente específico para cada pedido como atributos que no son de secuencia y una tabla anidada que contiene la secuencia en la que el cliente ha explorado el sitio o colocar elementos en un carro de la compra como información de secuencia.

Para obtener información más detallada sobre los tipos de contenido y los tipos de datos admitidos para los modelos de agrupación en clústeres de secuencia, consulte la sección Requisitos de referencia técnica del algoritmo de agrupación en clústeres de secuencia de Microsoft.

Visualización de un modelo de agrupación en clústeres de secuencia

El modelo de minería de datos que crea este algoritmo contiene descripciones de las secuencias más comunes de los datos. Para explorar el modelo, puede usar el Visor de clústeres de secuencia de Microsoft. Al ver un modelo de agrupación en clústeres de secuencia, Analysis Services muestra los clústeres que contienen varias transiciones. También puede ver las estadísticas pertinentes. Para obtener más información, vea Examinar un modelo mediante el Visor de clústeres de secuencia de Microsoft.

Si desea conocer más detalles, puede examinar el modelo en el Visor de árbol de contenido genérico de Microsoft. El contenido almacenado para el modelo incluye la distribución de todos los valores de cada nodo, la probabilidad de cada clúster y detalles sobre las transiciones. Para obtener más información, vea Contenido del modelo de minería para los modelos de agrupación de secuencias (Analysis Services - Minería de datos).

Creación de predicciones

Una vez entrenado el modelo, los resultados se almacenan como un conjunto de patrones. Puede usar las descripciones de las secuencias más comunes en los datos para predecir el siguiente paso probable de una nueva secuencia. Sin embargo, dado que el algoritmo incluye otras columnas, puede usar el modelo resultante para identificar las relaciones entre los datos secuenciados y las entradas que no son secuenciales. Por ejemplo, si agrega datos demográficos al modelo, puede realizar predicciones para grupos específicos de clientes. Las consultas de predicción se pueden personalizar para devolver un número variable de predicciones o para devolver estadísticas descriptivas.

Para obtener información sobre cómo crear consultas en un modelo de minería de datos, consulte Consultas de minería de datos. Para obtener ejemplos de cómo usar consultas con un modelo de agrupación en clústeres de secuencia, consulte Ejemplos de consultas de modelos de agrupación en clústeres de secuencia.

Observaciones

  • No admite el uso del lenguaje de marcado de modelos predictivos (PMML) para crear modelos de minería de datos.

  • Admite la obtención de detalles.

  • Admite el uso de modelos de minería de datos OLAP y la creación de dimensiones de minería de datos.

Véase también

Algoritmos de minería de datos (Analysis Services - Minería de datos)
Referencia técnica del algoritmo de agrupación en clústeres de secuencia de Microsoft
Ejemplos de consultas del modelo de agrupación en clústeres de secuencia
Examinar un modelo mediante el Visor de clústeres de secuencia de Microsoft