Compartir a través de


Contenido del modelo de minería de datos para los modelos de agrupación en clústeres de secuencia (Analysis Services - Minería de datos)

En este tema se describe el contenido del modelo de minería de datos específico de los modelos que usan el algoritmo de agrupación en clústeres de secuencia de Microsoft. Para obtener una explicación de la terminología general y estadística relacionada con el contenido del modelo de minería de datos que se aplica a todos los tipos de modelo, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).

Descripción de la estructura de un modelo de agrupación en clústeres de secuencia

Un modelo de agrupación en clústeres de secuencia tiene un único nodo primario (NODE_TYPE = 1) que representa el modelo y sus metadatos. El nodo primario, que se etiqueta (All), tiene un nodo de secuencia relacionado (NODE_TYPE = 13) que enumera todas las transiciones detectadas en los datos de entrenamiento.

Estructura del modelo de agrupación de secuencias

El algoritmo también crea una serie de clústeres, en función de las transiciones que se encontraron en los datos y cualquier otro atributo de entrada incluido al crear el modelo, como datos demográficos del cliente, etc. Cada clúster (NODE_TYPE = 5) contiene su propio nodo de secuencia (NODE_TYPE = 13) que enumera solo las transiciones que se usaron para generar ese clúster específico. Desde el nodo de secuencia, puede explorar en profundidad para ver los detalles de las transiciones de estado individuales (NODE_TYPE = 14).

Para obtener una explicación de las transiciones de secuencia y estado, con ejemplos, consulte Algoritmo de agrupación en clústeres de secuencia de Microsoft.

Contenido del modelo para un modelo de agrupamiento de secuencias

En esta sección se proporciona información adicional sobre las columnas del contenido del modelo de minería de datos que tienen especial relevancia para la agrupación de secuencias.

CATÁLOGO_DE_MODELOS
Nombre de la base de datos donde se almacena el modelo.

MODEL_NAME
Nombre del modelo.

NOMBRE_DEL_ATRIBUTO
Siempre en blanco.

NODE_NAME
El nombre del nodo. Actualmente, el mismo valor que NODE_UNIQUE_NAME.

NODO_NOMBRE_UNICO
Nombre único del nodo.

TIPO_DE_NODO
Un modelo de agrupación en clústeres de secuencia genera los siguientes tipos de nodo:

Id. de tipo de nodo Descripción
1 (Modelo) Nodo raíz del modelo
5 (clúster) Contiene un recuento de transiciones en el clúster, una lista de los atributos y estadísticas que describen los valores del clúster.
13 (secuencia) Contiene una lista de transiciones incluidas en el clúster.
14 (Transición) Describe una secuencia de eventos como una tabla en la que la primera fila contiene el estado inicial y todas las demás filas contienen estados sucesivos, junto con estadísticas de compatibilidad y probabilidad.

NODE_GUID
Espacio en blanco.

Etiqueta de nodo
Etiqueta o título asociado al nodo con fines de visualización.

Puede cambiar el nombre de los títulos del clúster mientras usa el modelo; sin embargo, el nuevo nombre no se conserva si cierra el modelo.

CARDINALIDAD_DE_HIJOS
Estimación del número de nodos hijos que tiene el nodo.

Raíz del modelo El valor de cardinalidad es igual al número de clústeres más uno. Para obtener más información, vea Cardinalidad.

Nodos de clúster La cardinalidad siempre es 1, ya que cada clúster tiene un único nodo secundario, que contiene la lista de secuencias del clúster.

Nodos de secuencia La cardinalidad indica el número de transiciones que se incluyen en ese clúster. Por ejemplo, la cardinalidad del nodo de secuencia de la raíz del modelo indica cuántas transiciones se encontraron en todo el modelo.

NOMBRE_UNICO_DEL_PADRE
Nombre único del elemento primario del nodo.

Se devuelve NULL para cualquier nodo en el nivel raíz.

DESCRIPCIÓN_DEL_NODO
Igual que el título del nodo.

REGLA_NODO
Siempre en blanco.

REGLA MARGINAL
Siempre en blanco.

Probabilidad de Nodo
Raíz del modelo Siempre 0.

Nodos de clúster Probabilidad ajustada del clúster en el modelo. Las probabilidades ajustadas no suman 1, ya que el método de agrupación en clústeres usado en la agrupación en clústeres de secuencia permite la pertenencia parcial en varios clústeres.

Nodos de secuencia Siempre 0.

Nodos de transición Siempre 0.

PROBABILIDAD MARGINAL
Raíz del modelo Siempre 0.

Nodos de clúster El mismo valor que NODE_PROBABILITY.

Nodos de secuencia Siempre 0.

Nodos de transición Siempre 0.

DISTRIBUCIÓN_DE_NODOS
Tabla que contiene probabilidades y otra información. Para obtener más información, consulte la tabla NODE_DISTRIBUTION.

SOPORTE_DE_NODO
Número de transiciones que admiten este nodo. Por lo tanto, si hay 30 ejemplos de secuencia "Producto A seguido del Producto B" en los datos de entrenamiento, el soporte total es 30.

Raíz del modelo Número total de transiciones en el modelo.

Nodos de clúster Soporte bruto del clúster, es decir, el número de casos de entrenamiento que aportan casos a este clúster.

Nodos de secuencia Siempre 0.

Nodos de transición Porcentaje de casos del clúster que representan una transición específica. Puede ser 0 o puede tener un valor positivo. Se calcula tomando el soporte sin procesar para el nodo del clúster y multiplicándolo por la probabilidad del clúster.

A partir de este valor, puede indicar cuántos casos de entrenamiento han contribuido a la transición.

MSOLAP_MODEL_COLUMN
No aplicable.

MSOLAP_NODE_SCORE
No aplicable.

MSOLAP_NODE_SHORT_CAPTION
Igual que NODE_DESCRIPTION.

Descripción de secuencias, estados y transiciones

Un modelo de agrupación en clústeres de secuencia tiene una estructura única que combina dos tipos de objetos con tipos de información muy diferentes: el primero son clústeres y el segundo son transiciones de estado.

Los clústeres creados por la agrupación en clústeres de secuencia son como los clústeres creados por el algoritmo de agrupación en clústeres de Microsoft. Cada clúster tiene un perfil y características. Sin embargo, en la agrupación en clústeres de secuencia, cada clúster contiene además un único nodo secundario que enumera las secuencias de ese clúster. Cada nodo de secuencia contiene varios nodos secundarios que describen las transiciones de estado en detalle, con probabilidades.

Casi siempre hay más secuencias en el modelo de las que se pueden encontrar en cualquier caso, ya que las secuencias se pueden encadenar juntas. Microsoft Analysis Services almacena punteros de un estado a otro para que pueda contar el número de veces que se produce cada transición. También puede encontrar información sobre cuántas veces se produjo la secuencia y medir su probabilidad de producirse en comparación con todo el conjunto de estados observados.

En la tabla siguiente se resume cómo se almacena la información en el modelo y cómo están relacionados los nodos.

Nodo Tiene un nodo secundario Tabla NODE_DISTRIBUTION
Raíz del modelo Varios nodos de clúster

Nodo con secuencias para todo el modelo
Enumera todos los productos del modelo, con compatibilidad y probabilidad.

Dado que el método de agrupación en clústeres permite la pertenencia parcial en varios clústeres, la compatibilidad y la probabilidad pueden tener valores fraccionarios. Es decir, en lugar de contar un solo caso una vez, cada caso puede pertenecer potencialmente a varios clústeres. Por lo tanto, cuando se determina la pertenencia al clúster final, el valor se ajusta con la probabilidad de ese clúster.
Nodo de secuencia para el modelo Varios nodos de transición Enumera todos los productos del modelo, con compatibilidad y probabilidad.

Dado que el número de secuencias se conoce para el modelo, en este nivel, los cálculos de compatibilidad y probabilidad son sencillos:

Apoyo = recuento de casos

Probabilidad = probabilidad bruta de cada secuencia en el modelo. Todas las probabilidades deben sumar a 1.
Nodos de clúster individuales Nodo con secuencias solo para ese clúster Enumera todos los productos de un clúster, pero proporciona valores de compatibilidad y probabilidad solo para los productos que son características del clúster.

El soporte representa el valor de apoyo ajustado para cada caso de este grupo. Los valores de probabilidad son probabilidades ajustadas.
Nodos de secuencia para clústeres individuales Múltiples nodos con transiciones para secuencias únicamente en ese clúster Exactamente la misma información que en los nodos de clúster individuales.
Transiciones Sin hijos Enumera las transiciones para el primer estado relacionado.

El soporte es un valor de soporte ajustado que indica los casos que participan en cada transición. La probabilidad es la probabilidad ajustada, representada como un porcentaje.

Tabla de NODE_DISTRIBUTION

La tabla NODE_DISTRIBUTION proporciona información detallada de probabilidad y soporte técnico para las transiciones y secuencias de un clúster específico.

Siempre se agrega una fila a la tabla de transición para representar los valores posibles Missing . Para obtener información sobre lo que significa el Missing valor y cómo afecta a los cálculos, vea Valores que faltan (Analysis Services - Minería de datos).

Los cálculos de compatibilidad y probabilidad difieren en función de si el cálculo se aplica a los casos de entrenamiento o al modelo terminado. Esto se debe a que el método de agrupación en clústeres predeterminado, Expectation Maximization (EM), supone que cualquier caso puede pertenecer a más de un clúster. Al calcular la compatibilidad con los casos del modelo, es posible usar recuentos sin procesar y probabilidades sin procesar. Sin embargo, las probabilidades de cualquier secuencia determinada de un clúster deben ponderarse con la suma de todas las combinaciones posibles de secuencia y clúster.

Cardinalidad

En un modelo de agrupación en clústeres, la cardinalidad del nodo primario suele decir cuántos clústeres hay en el modelo. Sin embargo, un modelo de agrupación en clústeres de secuencia tiene dos tipos de nodos en el nivel de clúster: un tipo de nodo contiene clústeres y el otro tipo de nodo contiene una lista de secuencias para el modelo en su conjunto.

Por lo tanto, para obtener información sobre el número de clústeres del modelo, puede tomar el valor de NODE_CARDINALITY para el nodo (All) y restar uno. Por ejemplo, si el modelo creó 9 clústeres, la cardinalidad de la raíz del modelo es 10. Esto se debe a que el modelo contiene 9 nodos de clúster, cada uno con su propio nodo de secuencia, más un nodo de secuencia adicional etiquetado clúster 10, que representa las secuencias del modelo.

Recorrido por la estructura

Un ejemplo podría ayudar a aclarar cómo se almacena la información y cómo se puede interpretar. Por ejemplo, puede encontrar la orden más grande, lo que significa que la cadena observada más larga en los datos subyacentes AdventureWorksDW2012, mediante la siguiente consulta:

USE AdventureWorksDW2012  
SELECT DISTINCT OrderNumber, Count(*)  
FROM vAssocSeqLineItems  
GROUP BY OrderNumber  
ORDER BY Count(*) DESC  

A partir de estos resultados, verá que los números de orden "SO72656", "SO58845" y "SO70714" contienen las secuencias más grandes, con ocho elementos cada uno. Mediante el uso de los identificadores de pedido, puede ver los detalles de un pedido determinado para ver qué artículos se compraron y en qué orden.

Número de pedido Número de línea Modelo
SO58845 1 Montaña-500
SO58845 2 LL Mountain Tire
SO58845 3 Tubo de neumáticos de montaña
SO58845 4 Fender Set - Mountain
SO58845 5 Jaula de botella de montaña
SO58845 6 Botella de agua
SO58845 7 Sport-100
SO58845 8 Logotipo de Long-Sleeve Jersey

Sin embargo, algunos de los clientes que compran el Mountain-500 también pueden comprar diferentes productos. Puede ver todos los productos que siguen al Mountain-500 consultando la lista de secuencias en el modelo. Los procedimientos siguientes le guiarán a través de la visualización de estas secuencias mediante los dos visores proporcionados en Analysis Services:

  1. En el Explorador de objetos, haga clic con el botón derecho en el modelo [Agrupación en clústeres de secuencia] y seleccione Examinar.

  2. En el visor de agrupación en clústeres de secuencia, haga clic en la pestaña Transiciones de estado .

  3. En la lista desplegable Clúster, asegúrese de que Población (Todos) está seleccionada.

  4. Mueva la barra deslizante a la izquierda del panel hasta la parte superior para mostrar todos los vínculos.

  5. En el diagrama, busque Mountain-500 y haga clic en el nodo del diagrama.

  6. Las líneas resaltadas apuntan a los siguientes estados (los productos que se compraron después del Mountain-500) y los números indican la probabilidad. Compárelos con los resultados en el visor de contenido del modelo genérico.

  1. En el Explorador de objetos, haga clic con el botón derecho en el modelo [Agrupación en clústeres de secuencia] y seleccione Examinar.

  2. En la lista desplegable del visor, seleccione el Visor de árbol de contenido genérico de Microsoft.

  3. En el panel Título del nodo , haga clic en el nodo denominado Nivel de secuencia para el clúster 16.

  4. En el panel Detalles del nodo, busque la fila NODE_DISTRIBUTION y haga clic en cualquier lugar de la tabla anidada.

    La fila superior siempre es para el valor faltante. Esta fila es el estado de secuencia 0.

  5. Presione la tecla de flecha hacia abajo o use las barras de desplazamiento para desplazarse por la tabla anidada hasta que vea la fila Mountain-500.

    Esta fila es el estado de secuencia 20.

    Nota:

    Puede obtener el número de fila de un estado de secuencia determinado mediante programación, pero si simplemente está explorando, puede ser más fácil simplemente copiar la tabla anidada en un libro de Excel.

  6. Vuelva al panel de título del nodo y expanda el nodo Nivel de secuencia para el clúster 16, si aún no está expandido.

  7. Busque entre sus nodos secundarios la fila de transición para el estado de secuencia 20. Haga clic en el nodo de transición.

  8. La tabla NODE_DISTRIBUTION anidada contiene los siguientes productos y probabilidades. Compárelos con los resultados en la pestaña Transición de estado del visor de agrupación en clústeres de secuencia.

En la tabla siguiente se muestran los resultados de la tabla NODE_DISTRIBUTION, junto con los valores de probabilidad redondeados que se muestran en el visor gráfico.

Producto Compatibilidad (tabla NODE_DISTRIBUTION) Tabla de probabilidad (NODE_DISTRIBUTION) Probabilidad (del gráfico)
Desaparecido 48.447887 0.138028169 (no se muestra)
Capucha de ciclismo 10.876056 0.030985915 0.03
Fender Set - Mountain 80.087324 0.228169014 0,23
guantes de Half-Finger 0.9887324 0.002816901 0.00
Paquete de hidratación 0.9887324 0.002816901 0.00
LL Mountain Tire 51.414085 0.146478873 0.15
Logotipo de Long-Sleeve Jersey 2.9661972 0.008450704 0,01
Jaula de botella de montaña 87.997183 0.250704225 0.25
Tubo de neumáticos de montaña 16.808451 0.047887324 0,05
Short-Sleeve Jersey clásico 10.876056 0.030985915 0.03
Sport-100 20.76338 0.05915493 0,06
Botella de agua 18.785915 0.053521127 0.25

Aunque el caso que hemos seleccionado inicialmente de los datos de entrenamiento contenía el producto "Mountain-500" seguido de "LL Mountain Tire", puede ver que hay muchas otras secuencias posibles. Para encontrar información detallada para cualquier clúster determinado, debe repetir el proceso de exploración en profundidad de la lista de secuencias del clúster a las transiciones reales de cada estado o producto.

Puede pasar de la secuencia que aparece en un clúster determinado a la fila de transición. Desde esa fila de transición, puede determinar qué producto es el siguiente y volver a ese producto en la lista de secuencias. Al repetir este proceso para cada primer y segundo estado, puede recorrer cadenas largas de estados.

Uso de la información de secuencia

Un escenario común para la agrupación en clústeres de secuencia es realizar un seguimiento de los clics de usuario en un sitio web. Por ejemplo, si los datos proceden de registros de compras de clientes en el sitio web de comercio electrónico de Adventure Works, el modelo de agrupación en clústeres de secuencia resultante podría usarse para deducir el comportamiento del usuario, para rediseñar el sitio de comercio electrónico para resolver problemas de navegación o promover ventas.

Por ejemplo, el análisis podría mostrar que los usuarios siempre siguen una cadena determinada de productos, independientemente de los datos demográficos. Además, es posible que los usuarios salgan con frecuencia del sitio después de hacer clic en un producto determinado. Dada esa búsqueda, puede preguntar qué rutas de acceso adicionales podría proporcionar a los usuarios que inducirían a los usuarios a permanecer en el sitio web.

Si no tiene información adicional para usarla en la clasificación de los usuarios, simplemente puede usar la información de secuencia para recopilar datos sobre la navegación para comprender mejor el comportamiento general. Sin embargo, si puede recopilar información sobre los clientes y hacer coincidir esa información con la base de datos de clientes, puede combinar la eficacia de la agrupación en clústeres con predicciones en secuencias para proporcionar recomendaciones adaptadas al usuario, o quizás en función de la ruta de navegación a la página actual.

Otro uso de la amplia información de estado y transición compilada por un modelo de agrupación en clústeres de secuencia es determinar qué posibles rutas de acceso nunca se usan. Por ejemplo, si tiene muchos visitantes que van a las páginas 1-4, pero los visitantes nunca continúan en la página 5, puede investigar si hay problemas que impiden la navegación a la página 5. Puede hacerlo consultando el contenido del modelo y comparándolo con una lista de posibles rutas de acceso. Los gráficos que indican todas las rutas de navegación de un sitio web se pueden crear mediante programación o mediante una variedad de herramientas de análisis de sitios.

Para averiguar cómo obtener la lista de rutas de acceso observadas consultando el contenido del modelo y para ver otros ejemplos de consultas en un modelo de agrupación en clústeres de secuencia, consulte Ejemplos de consultas de modelos de agrupación en clústeres de secuencia.

Véase también

Contenido del modelo de minería de datos (Servicios de Análisis - Minería de datos)
Algoritmo de agrupación en clústeres de secuencia de Microsoft
Ejemplos de consultas del modelo de agrupación en clústeres de secuencia