Referencia técnica del algoritmo de agrupación en clústeres de secuencia de Microsoft

El algoritmo de agrupación en clústeres de secuencia de Microsoft es un algoritmo híbrido que usa el análisis de cadenas de Markov para identificar secuencias ordenadas y combina los resultados de este análisis con técnicas de agrupación en clústeres para generar clústeres basados en las secuencias y otros atributos del modelo. En este tema se describe la implementación del algoritmo, cómo personalizar el algoritmo y los requisitos especiales para los modelos de agrupación en clústeres de secuencia.

Para obtener más información general sobre el algoritmo, incluido cómo examinar y consultar modelos de agrupación en clústeres de secuencia, consulte Algoritmo de agrupación en clústeres de secuencia de Microsoft.

Implementación del algoritmo de agrupación en clústeres de secuencia de Microsoft

El modelo de agrupación en clústeres de secuencia de Microsoft usa modelos de Markov para identificar secuencias y determinar la probabilidad de secuencias. Un modelo de Markov es un gráfico dirigido que almacena las transiciones entre diferentes estados. El algoritmo de agrupamiento de secuencias de Microsoft usa cadenas de Markov de orden n, no un modelo oculto de Markov.

El número de orden de una cadena de Markov indica cuántos estados se usan para determinar la probabilidad de los estados presentes. En un modelo de Markov de primer orden, la probabilidad del estado actual depende solo del estado anterior. En una cadena de Markov de segundo orden, la probabilidad de un estado depende de los dos estados anteriores, etc. Para cada cadena de Markov, una matriz de transición almacena las transiciones para cada combinación de estados. A medida que aumenta la longitud de la cadena de Markov, el tamaño de la matriz también aumenta exponencialmente y la matriz se vuelve extremadamente dispersa. El tiempo de procesamiento también aumenta proporcionalmente.

Puede resultar útil visualizar la cadena mediante el ejemplo de análisis de secuencia de clics, que analiza las visitas a las páginas web de un sitio. Cada usuario crea una larga secuencia de clics para cada sesión. Al crear un modelo para analizar el comportamiento del usuario en un sitio web, el conjunto de datos usado para el entrenamiento es una secuencia de direcciones URL, convertida en un gráfico que incluye el recuento de todas las instancias de la misma ruta de acceso de clic. Por ejemplo, el gráfico contiene la probabilidad de que el usuario se mueva de la página 1 a la página 2 (10%), la probabilidad de que el usuario se mueva de la página 1 a la página 3 (20%), etc. Cuando se colocan todas las rutas de acceso y partes posibles de las rutas de acceso juntas, se obtiene un gráfico que puede ser mucho más largo y más complejo que cualquier ruta de acceso observada única.

De forma predeterminada, el algoritmo de secuencias de agrupación de Microsoft usa el método Expectation Maximization (EM). Para obtener más información, consulte Referencia técnica del algoritmo de agrupación en clústeres de Microsoft.

Los objetivos del agrupamiento son tanto los atributos secuenciales como los no secuenciales. Cada clúster se selecciona aleatoriamente mediante una distribución de probabilidad. Cada clúster tiene una cadena de Markov que representa el conjunto completo de caminos y una matriz que contiene las transiciones de estado y probabilidades. En función de la distribución inicial, la regla Bayes se usa para calcular la probabilidad de cualquier atributo, incluida una secuencia, en un clúster específico.

El algoritmo de agrupación en clústeres de secuencia de Microsoft admite el uso adicional de atributos no secundarios al modelo. Esto significa que estos atributos adicionales se combinan con los atributos de secuencia para crear clústeres de casos con atributos similares, al igual que en un modelo de agrupación en clústeres típico.

Un modelo de agrupación en clústeres de secuencia tiende a crear muchos más clústeres que un modelo de agrupación en clústeres típico. Por lo tanto, el algoritmo de agrupación en clústeres de secuencia de Microsoft realiza la descomposición del clústerpara separar los clústeres en función de secuencias y otros atributos.

Selección de características en un modelo de agrupación en clústeres de secuencia

La selección de características no se invoca al compilar secuencias; sin embargo, la selección de características se aplica en la fase de agrupación en clústeres.

Tipo de modelo	Método de selección de características	Comentarios
Agrupación en clústeres de secuencia	No se usa	No se invoca la selección de características; Sin embargo, puede controlar el comportamiento del algoritmo estableciendo el valor de los parámetros MINIMUM_SUPPORT y MINIMUM_PROBABILIITY.
Agrupación en clústeres	Puntuación de interés	Aunque el algoritmo de agrupación en clústeres puede usar algoritmos discretos o discretos, la puntuación de cada atributo se calcula como una distancia y es continua; por lo tanto, se usa la puntuación de interés.

Para obtener más información, consulte Selección de características.

Optimización del rendimiento

El algoritmo de agrupación en clústeres de secuencia de Microsoft admite varias maneras de optimizar el procesamiento:

Para controlar el número de clústeres generados, establezca un valor para el parámetro CLUSTER_COUNT.
Reducir el número de secuencias incluidas como atributos, aumentando el valor del parámetro MINIMUM_SUPPORT. Como resultado, se eliminan secuencias poco frecuentes.
Reducir la complejidad antes de procesar el modelo mediante la agrupación de atributos relacionados.

En general, puede optimizar el rendimiento de un modo de cadena de Markov de n pedidos de varias maneras:

Controlar la longitud de las secuencias posibles.
Reducir mediante programación el valor de n.
Almacenar solo probabilidades que superen un umbral especificado.

Una explicación completa de estos métodos está fuera del ámbito de este tema.

Personalización del algoritmo de agrupación en clústeres de secuencia

El algoritmo de agrupación en clústeres de secuencia de Microsoft admite parámetros que afectan al comportamiento, el rendimiento y la precisión del modelo de minería de datos resultante. También puede modificar el comportamiento del modelo completado estableciendo marcas de modelado que controlan la forma en que el algoritmo procesa los datos de entrenamiento.

Establecer parámetros de algoritmo

En la tabla siguiente se describen los parámetros que se pueden usar con el algoritmo de agrupación en clústeres de secuencia de Microsoft.

CLUSTER_COUNT
Especifica el número aproximado de clústeres que va a compilar el algoritmo. Si el número aproximado de clústeres no se puede compilar a partir de los datos, el algoritmo compila tantos clústeres como sea posible. Establecer el parámetro CLUSTER_COUNT en 0 hace que el algoritmo use la heurística para determinar mejor el número de clústeres que se van a compilar.

El valor predeterminado es 10.

Nota:

Especificar un número distinto de cero actúa como una sugerencia para el algoritmo, que continúa con el objetivo de encontrar el número especificado, pero puede acabar buscando más o menos.

SOPORTE_MÍNIMO
Especifica el número mínimo de casos necesarios para admitir un atributo para crear un clúster.

El valor predeterminado es 10.

ESTADOS_SECUENCIA_MÁXIMA
Especifica el número máximo de estados que puede tener una secuencia.

Establecer este valor en un número mayor que 100 puede hacer que el algoritmo cree un modelo que no proporcione información significativa.

El valor predeterminado es 64.

ESTADOS_MÁXIMOS
Especifica el número máximo de estados para un atributo que no es de secuencia que admite el algoritmo. Si el número de estados de un atributo que no es de secuencia es mayor que el número máximo de estados, el algoritmo usa los estados más populares del atributo y trata los estados restantes como Missing.

El valor predeterminado es 100.

Indicadores de modelado

Se admiten las siguientes marcas de modelado para su uso con el algoritmo de agrupación en clústeres de secuencia de Microsoft.

NO NULO
Indica que la columna no puede contener un valor NULL. Se producirá un error si Analysis Services encuentra un valor NULL durante el entrenamiento del modelo.

Se aplica a la columna de la estructura de minería.

MODEL_EXISTENCE_ONLY
Significa que la columna se tratará como si tuviera dos estados posibles: Missing y Existing. Un valor NULL se trata como un Missing valor.

Se aplica a la columna del modelo de minería.

Para obtener más información sobre el uso de valores que faltan en los modelos de minería de datos y cómo afectan los valores que faltan a las puntuaciones de probabilidad, vea Valores que faltan (Analysis Services - Minería de datos).

Requisitos

La tabla de casos debe tener una columna de identificador de caso. Opcionalmente, la tabla case puede contener otras columnas que almacenan atributos sobre el caso.

El algoritmo de agrupación en clústeres de secuencia de Microsoft requiere información de secuencia, almacenada como una tabla anidada. La tabla anidada debe tener una sola columna Secuencia de claves. Una Key Sequence columna puede contener cualquier tipo de datos que se puedan ordenar, incluidos los tipos de datos de cadena, pero la columna debe contener valores únicos para cada caso. Además, antes de procesar el modelo, debe asegurarse de que tanto la tabla de casos como la tabla anidada se ordenan en orden ascendente en la clave que relaciona las tablas.

Nota:

Si crea un modelo que usa el algoritmo de secuencia de Microsoft pero no usa una columna de secuencia, el modelo resultante no contendrá ninguna secuencia, sino que simplemente agrupará los casos en función de otros atributos que se incluyen en el modelo.

Columnas de entrada y predicción

El algoritmo de agrupación en clústeres de secuencia de Microsoft admite las columnas de entrada específicas y las columnas de predicción que se enumeran en la tabla siguiente. Para obtener más información sobre lo que significan los tipos de contenido cuando se usan en un modelo de minería de datos, vea Tipos de contenido (minería de datos).

Columna	Tipos de contenido
Atributo de entrada	Continuo, cíclico, discreto, discreto, clave, secuencia de claves, tabla y ordenado
Atributo de predicción	Continuo, cíclico, discreto, discreto, tabla y ordenado

Observaciones

Use la función PredictSequence (DMX) para La predicción de secuencias. Para obtener más información sobre las ediciones de SQL Server que admiten la predicción de secuencias, vea Características compatibles con las ediciones de SQL Server 2012 (https://go.microsoft.com/fwlink/?linkid=232473).
El algoritmo de agrupación en clústeres de secuencia de Microsoft no admite el uso del lenguaje de marcado de modelos predictivos (PMML) para crear modelos de minería de datos.
El algoritmo de agrupación en clústeres de secuencia de Microsoft admite la exploración de datos, el uso de modelos OLAP de minería de datos y el uso de dimensiones de minería de datos.

Véase también

Algoritmo de agrupación en clústeres de secuencia de Microsoft
Ejemplos de consultas del modelo de agrupación en clústeres de secuencia
Contenido del modelo de minería de datos para modelos de agrupación secuencial (Analysis Services - Minería de datos)

Last updated on 2017-06-13

Compartir a través de