Compartir a través de


Exploración del modelo de agrupación en clústeres de secuencia (Tutorial intermedio de minería de datos)

Ahora que ha creado el Modelo de agrupamiento de secuencias con región, puede explorarlo mediante el Visor de agrupamiento de secuencias de Microsoft en la pestaña Visor de modelos de minería del Diseñador de minería de datos. El Visor de clústeres de secuencia de Microsoft contiene cinco pestañas: Diagrama de clúster, Perfiles de clúster, Características del clúster, ClusterDiscrimination y Transiciones de estado. Para obtener más información sobre cómo usar este visor, vea Examinar un modelo mediante el Visor de clústeres de secuencia de Microsoft.

Pestaña Diagrama de clúster

La pestaña Diagrama de clúster muestra gráficamente los clústeres que el algoritmo detectó en la base de datos. El diseño del diagrama representa las relaciones de los clústeres, con clústeres similares agrupados juntos. De forma predeterminada, la sombra de cada nodo representa la densidad de todos los casos del clúster: más oscuro es el sombreado del nodo, cuantos más casos contenga. Puede cambiar el significado del sombreado de los nodos para que represente soporte, dentro de cada clúster, para un atributo y un estado.

También puede cambiar el nombre de los clústeres para facilitar la identificación y el trabajo con clústeres de destino. En este tutorial, cambiará el nombre del clúster que tiene el porcentaje más alto de clientes de la región del Pacífico y el clúster que tiene la mayoría de los casos en general.

Nota:

Los casos asignados a clústeres específicos pueden cambiar al volver a procesar el modelo, según los datos y los parámetros del modelo. Además, si cambia el nombre de los clústeres, los nombres se perderán al volver a procesar el modelo de minería de datos.

Para cambiar el atributo usado para resaltar clústeres

  1. En la lista Variable de sombreado , seleccione Modelo.

  2. Seleccione Cycling Cap en la lista Estado.

    El diagrama se actualiza para mostrar la concentración del producto seleccionado en cada uno de los clústeres. El clúster que tiene el sombreado más oscuro contiene la mayor densidad de tapas de ciclismo. Puede cambiar la variable de sombreado para usar cualquier estado de cualquier columna de entrada.

  3. En la lista Variable de sombreado, seleccione Población.

    Al cambiar la variable de sombreado a población, el diagrama se actualiza para comparar los clústeres por tamaño. El clúster que tiene el sombreado más oscuro contiene más casos que los demás clústeres.

Para cambiar el nombre de los nodos del modelo

  1. Cambie Shading Variable a Regiony establezca State en Pacific.

  2. Resalte el nodo más oscuro del gráfico.

  3. Haga clic con el botón derecho en este clúster y seleccione Cambiar nombre del clúster.

  4. Escriba el nombrePacific Cluster.

  5. Cambie el valor de Variable de sombreado a Población.

  6. En el gráfico actualizado, busque el clúster más oscuro, que debe ser el clúster más grande. Si no puede distinguir por el sombreado qué clúster es mayor, desplace el cursor sobre cada clúster y vea el tooltip, y luego elija el clúster que contiene la mayoría de los casos.

  7. Haga clic con el botón derecho en este clúster y seleccione Cambiar nombre del clúster. Escriba el nuevo nombre, Largest Cluster.

Puede profundizar desde el nodo que representa el clúster para ver los detalles de los casos que se encuentran en cada clúster. Esto puede ser útil si desea tomar medidas sobre los resultados de su análisis, como enviar correo electrónico a un cliente. También puede examinar los demás atributos de los casos que incluyó en la estructura pero no utilizó en el modelo, como Región y GrupoIngreso. Para obtener más información sobre la obtención de detalles desde modelos de minería de datos hasta los casos subyacentes, vea Consultas de obtención de detalles (minería de datos).

Para profundizar en los detalles del diagrama de clústeres

  1. Haga clic con el botón derecho en Pacific Cluster, seleccione Análisis detallado y, a continuación, seleccione Columnas de modelo y estructura.

    Se abre el cuadro de diálogo Drill Through. Las columnas que no se usan en el modelo, pero que están disponibles para la consulta tienen el prefijo Structure.

    Puede ver que este clúster contiene principalmente clientes de la región del Pacífico, con solo unos pocos clientes de otras regiones.

  2. Haga clic en el signo más en la columna anidada "Assoc Seq Line Items" para ver la secuencia de elementos en un pedido de cliente determinado.

  3. Cierre el cuadro de diálogo Exploración detallada.

    Nota:

    El botón Reproducir permite realizar una nueva consulta a los datos; sin embargo, la nueva consulta no cambia los datos que se muestran, a menos que el modelo haya sido actualizado dinámicamente de fondo por algún otro proceso.

Volver a la parte superior

Pestaña Perfiles de clúster

La pestaña Perfiles de clúster muestra las secuencias que se encuentran en cada clúster. Los clústeres se muestran en columnas individuales a la derecha de la columna Estados .

En el visor, la fila Modelo describe la distribución general de elementos de un clúster y la fila Model.samples contiene secuencias de los elementos. Cada línea de las secuencias de color de cada celda de la fila Model.samples representa el comportamiento de un usuario seleccionado aleatoriamente en el clúster.

Cada color de un histograma de secuencia individual representa un modelo de producto. La leyenda de minería muestra las secuencias de productos usando la codificación por colores y los nombres de modelo de producto. Si ha agregado otras columnas al modelo para la agrupación en clústeres, como Región o Grupo de ingresos, el visor contendrá una fila adicional para cada columna que muestre la distribución de estos valores dentro de cada clúster.

Para ver las secuencias más comunes en un clúster

  1. Haga clic con el botón derecho en la fila Modelo de la columna del clúster Largest Clustery seleccione Mostrar leyenda.

    La columna Color contiene una barra sombreada que indica la frecuencia de los elementos encontrados en secuencias. Cada elemento se representa mediante un color diferente. En la columna Significado se enumeran los nombres del modelo de producto para cada color. La columna Distribución indica el porcentaje de casos que contenían este elemento en una secuencia.

  2. Cerrar Mining Legend.

  3. Haga clic con el botón derecho en la fila Model.samples de la columna con el encabezado Población y seleccione Mostrar leyenda.

  4. Examinar la lista de secuencias en el modelo general.

    La Leyenda de Minería enumera primero las secuencias más comunes, por lo que puede ver que Mountain Tire Tube es el primer elemento de muchas secuencias. Esto significa que es muy probable que un cliente ponga el Tubo de neumáticos de montaña en la cesta de la compra primero.

Para profundizar en los casos desde el visor de clústeres

  1. Desplácese hacia abajo en el panel Atributo hasta que encuentre la fila del Region atributo.

    La fila contiene un histograma para cada clúster del modelo, además de un histograma adicional para Population, lo que significa que todo el conjunto de casos usados en el modelo. Un histograma es una barra con colores diferentes en él, donde cada color representa un atributo y el tamaño de la sección colorada para ese atributo representa el porcentaje de casos con ese atributo.

  2. Compare los histogramas de los clústeres cuyo nombre ha cambiado Pacific Cluster y Largest Cluster. Cada clúster aparece en una columna diferente.

    Ambos parecen colores sólidos, pero los colores son diferentes.

  3. En la Region fila, coloca el ratón sobre el histograma de colores para Largest Cluster.

    La información sobre herramientas muestra valores que muestran los porcentajes reales de casos de cada región.

  4. Haga clic derecho sobre el histograma coloreado de la fila Region de Pacific Cluster, seleccione Perforar y luego seleccione Solo columnas del modelo.

  5. Mueva la barra de desplazamiento para revisar todos los clientes de este clúster.

    De nuevo, desde la comprensión hasta los detalles, puede ver que el clúster contiene principalmente pedidos de la región del Pacífico, pero también algunos de las regiones de Norteamérica y Europa.

  6. Cierre el cuadro de diálogo Exploración detallada.

Volver a la parte superior

Pestaña Características del clúster

La pestaña Características del clúster resume las transiciones entre estados de un clúster mostrando barras que representan visualmente la importancia del valor de atributo para el clúster seleccionado. La columna Variables indica lo que el modelo encontró que es importante para el clúster o la población seleccionados: un valor determinado o la relación entre valores, conocido como transición. La columna Valores proporciona más detalles sobre el valor o la transición, y la columna Probabilidad representa visualmente el peso de este atributo o transición.

Para ver los atributos importantes de un clúster

  1. En la lista desplegable Clúster , seleccione Pacific Cluster.

    La lista se actualiza para mostrar las características del clúster cuyo nombre ha cambiado Pacific Cluster. En este clúster, la característica más importante es Region.

  2. Coloca el ratón sobre la barra sombreada de la fila para Region.

    La probabilidad del valor que es Pacífico es muy alta. Para obtener más información sobre cómo interpretar estos valores, consulte Referencia técnica del algoritmo de agrupación en clústeres de secuencia de Microsoft.

  3. Examine la lista de características del clúster hasta que encuentre la primera fila de transición.

  4. Una fila de transición contiene el texto Transición en la columna Variables y alguna combinación de valores de atributo secuenciales en la columna Valor . La secuencia también puede contener puntos iniciales y valores que faltan.

    Por ejemplo, supongamos que la transición tiene el valor [Start] -> Road Tire Tube. Esto significa que los clientes de este clúster suelen poner el Road Tire Tube en su cesta de la compra en primer lugar. Esto podría indicar que el producto es un artículo popular que los clientes buscan primero, o que solo podría indicar que el producto es fácil de encontrar en el sitio de compra.

  5. Desplácese por la lista hasta que encuentre la primera transición que no tenga [Start] o que falte en ella.

    Por ejemplo, supongamos que encuentra el cambio, "Touring Tire, Touring Tire Tube". Esto significa que los clientes de este clúster compraron con frecuencia estos artículos juntos, en exactamente este pedido.

  6. Coloca el ratón sobre la barra sombreada para la transición.

    La probabilidad de esta transición se muestra como un porcentaje.

  7. En la lista desplegable Clúster , seleccione Population (All).

    La lista de atributos se actualiza para mostrar las características de todos los pedidos usados para crear el modelo. En este modelo de minería de datos, la característica más importante para distinguir entre clústeres es Region, con un valor de Norteamérica.

Después de revisar estas tareas, se dan cuenta de dos cosas. La primera es que necesita una gran cantidad de datos para obtener un número significativo de combinaciones. Por ejemplo, es probable que las secuencias con las probabilidades más altas incluyan un estado [Start] o un estado Faltante.

El segundo es que hay un fuerte efecto de agrupación en los atributos en clústeres para Region, lo que hace más difícil ver los grupos de secuencias. Por lo tanto, decide crear otro modelo que use secuencias únicamente y no incluya las columnas para la región o los ingresos.

Volver a la parte superior

Pestaña Discriminación de clúster

La pestaña Discriminación de clúster le ayuda a comparar dos clústeres para determinar qué atributos distinguen un clúster determinado de otro clúster. La pestaña contiene cuatro columnas: Variables, Valores, Clúster 1 y Clúster 2. Puede elegir cualquier clúster que se use como clúster 1 y clúster 2.

La columna Variables indica el nombre del atributo, que puede ser un nombre de columna o una combinación de nombre de columna y la palabra transición. La columna Valores muestra el valor exacto del atributo o la transición. Las barras sombreadas de las columnas del clúster 1 y el clúster 2 indican la intensidad del atributo en los clústeres que está comparando. Cuanto más larga sea la barra, más probable es que el clúster incluya casos con ese atributo.

Para comparar dos clústeres mediante la pestaña Discriminación de clúster

  1. En la pestaña Discriminación de clúster , en Clúster 1, seleccione Pacific Cluster.

    De forma predeterminada, la selección de Cluster 2 cambia a Complement of Pacific Cluster (Complemento del clúster del Pacífico).

    El atributo superior que distingue Pacific Cluster de todos los demás casos es la región. Región es un atributo tan fuerte para la agrupación que oculta otros atributos. Para evitar este efecto, intente comparar varios de los clústeres más pequeños entre sí. Al hacerlo, la lista de atributos cambia y puede incluir más transiciones entre modelos.

  2. Busque una fila de transición y pause el mouse sobre la barra sombreada.

    Los elementos de la columna Valores pueden incluir tanto estados como transiciones. El sombreado de cada elemento indica la puntuación de discriminación. Para obtener más información sobre el significado de diferentes puntuaciones, consulte Mining Model Content for Sequence Clustering Models (Analysis Services - Data Mining).

Volver a la parte superior

Pestaña Transiciones de estado

En la pestaña Transiciones de estado, puede seleccionar un clúster y examinar sus transiciones de estado. Si selecciona Población (Todos) en la lista desplegable del clúster, el diagrama muestra la distribución de estados para todo el modelo de minería.

Cada nodo del gráfico representa un estado, o un valor posible, de las secuencias que está intentando analizar. El color de fondo de los nodos representa la frecuencia de ese estado. Las líneas conectan algunos estados, lo que indica una transición entre estados. Puede subir o bajar el control deslizante para cambiar el umbral de probabilidad de las transiciones. Los números están asociados a algunos nodos, lo que indica la probabilidad de ese estado.

Para explorar las relaciones en la pestaña Transición de estado

  1. En la pestaña Transiciones de estado del visor del modelo de minería de datos, seleccione Pacific Cluster en la lista de clústeres. Asegúrese de que está seleccionada la opción Mostrar etiquetas perimetrales.

    El gráfico se actualiza para mostrar las transiciones que son más comunes en este clúster.

  2. Haga clic en cualquier nodo conectado por una línea a otro nodo.

    El gráfico se actualiza y resalta los nodos relacionados. El valor numérico situado junto a la línea indica la probabilidad de la transición.

  3. Eleva el control deslizante hasta Todos los vínculos para aumentar el número de transiciones incluidas en el gráfico.

  4. Seleccione Población (Todos) desde Clúster.

    Tenga en cuenta que cuando se carga un clúster diferente, el gráfico se restablece a la configuración de visualización predeterminada, por lo que el control deslizante se restablece a la posición central.

  5. Haga clic en el nodo más oscuro del gráfico, que debe ser Sport-100.

    Tenga en cuenta que no hay líneas que conecten este producto a otros productos.

  6. Aumente el control deslizante un paso para aumentar el número de transiciones incluidas en el gráfico. Aún no vayas a Todos los enlaces .

    El gráfico se actualiza agregando varias transiciones más al gráfico, pero ninguna que incluya el modelo Sport-100.

  7. Mueva el control deslizante hasta Todos los vínculos. Haga clic en el nodo Sport-100 si aún no está seleccionado.

    El gráfico se actualiza para mostrar muchas transiciones que incluyen el producto Sport-100. La dirección de la flecha de la línea de conexión indica si el elemento Sport-100 se seleccionó como primer elemento o el segundo elemento del par.

  8. Al hacer clic en el nodo de Touring Tire y mover el control deslizante hacia abajo hasta la posición central.

    En primer lugar, hay muchas líneas de transición que conectan Touring Tire a otros productos, pero cuando se eleva el umbral de probabilidad, las transiciones menos probables se eliminan del gráfico, dejando solo la transición, Touring Tire > Touring Tire Tube. Esta transición significa que si un cliente coloca un Neumático De Gira en la cesta de la compra, hay una probabilidad fuerte de que el cliente coloque a continuación un Tubo de neumáticos de gira en la cesta.

Volver a la parte superior

Visor de árbol de contenido genérico

Este visor se puede usar para todos los modelos, independientemente del algoritmo o tipo de modelo. El Visor de árboles de contenido de MicrosoftGeneric está disponible en la lista desplegable Visor .

Un árbol de contenido es una representación de cualquier modelo de minería de datos como una serie de nodos, donde cada nodo representa conocimientos aprendidos sobre los datos de entrenamiento. El nodo puede contener un patrón, un conjunto de reglas, un clúster o la definición de un intervalo de fechas que comparten algunos atributos. El contenido exacto del nodo difiere en función del algoritmo y del atributo de predicción, pero la representación general del contenido es la misma.

Puede expandir cada nodo para ver los niveles de detalle crecientes y copiar el contenido de cualquier nodo en el Portapapeles. Para obtener más información, vea Examinar un modelo mediante el Visor de árbol de contenido genérico de Microsoft.

Para ver los detalles de un modelo de agrupación en clústeres de secuencia mediante el Visor de árboles de contenido genérico

  1. En la pestaña Visor de modelos de minería, haga clic en la lista Visor y seleccione Visor genérico de árbol de contenido de Microsoft.

  2. En el panel Título del nodo , haga clic en Pacific Cluster (1).

    El nombre de este nodo contiene tanto el nombre descriptivo que asignó al clúster como el ID de nodo subyacente. Puede usar los identificadores de nodo para explorar en profundidad detalles adicionales en el modelo.

  3. Expanda el primer nodo secundario, denominado Nivel de secuencia para el clúster 1.

    El nodo de nivel de secuencia de un clúster contiene detalles sobre los estados y transiciones que se incluyen en ese clúster. Puede usar estos detalles, disponibles en la columna NODE_DISTRIBUTION, para explorar las secuencias y los estados de cada clúster o para el modelo como un todo.

  4. Continúe con la expansión de nodos y vea los detalles en el panel visor HTML.

Para obtener más información sobre el contenido del modelo de minería de datos y cómo utilizar los detalles en el visor, consulte Contenido del modelo de minería de datos para modelos de agrupación en clústeres de secuencia (Analysis Services - Minería de datos).

Volver a la parte superior

Siguiente tarea de la lección

Creación de un modelo de agrupación en clústeres de secuencia relacionada (Tutorial intermedio de minería de datos)

Véase también

Algoritmo de agrupación en clústeres de secuencia de Microsoft
Ejemplos de consultas del modelo de agrupación en clústeres de secuencia