Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este tema se describe el contenido del modelo de minería de datos específico de los modelos que usan el algoritmo de agrupación en clústeres de Microsoft. Para obtener una explicación general del contenido del modelo de minería de datos para todos los tipos de modelo, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).
Descripción de la estructura de un modelo de agrupación en clústeres
Un modelo de agrupación en clústeres tiene una estructura sencilla. Cada modelo tiene un único nodo primario que representa el modelo y sus metadatos, y cada nodo primario tiene una lista plana de clústeres (NODE_TYPE = 5). Esta organización se muestra en la siguiente imagen.
Cada nodo secundario representa un único clúster y contiene estadísticas detalladas sobre los atributos de los casos de ese clúster. Esto incluye un recuento del número de casos en el clúster y la distribución de valores que distinguen el clúster de otros clústeres.
Nota:
No es necesario recorrer en iteración los nodos para obtener un recuento o una descripción de los clústeres; El nodo primario del modelo también cuenta y enumera los clústeres.
El nodo primario contiene estadísticas útiles que describen la distribución real de todos los casos de entrenamiento. Estas estadísticas se encuentran en la columna de tabla anidada, NODE_DISTRIBUTION. Por ejemplo, en la tabla siguiente se muestran varias filas de la tabla NODE_DISTRIBUTION que describen la distribución de datos demográficos del cliente para el modelo de agrupación en clústeres, TM_Clustering, que se crea en el Tutorial básico de minería de datos:
| NOMBRE_DE_ATRIBUTO | ATRIBUTO_VALOR | SOPORTE TÉCNICO | PROBABILIDAD | VARIANZA | TIPO_DE_VALOR |
|---|---|---|---|---|---|
| Edad | Desaparecido | 0 | 0 | 0 | 1 (Falta) |
| Edad | 44.9016152716593 | 12939 | 1 | 125.663453102554 | 3 (continuo) |
| Género | Desaparecido | 0 | 0 | 0 | 1 (Falta) |
| Género | F | 6350 | 0.490764355823479 | 0 | 4 (discreto) |
| Género | M | 6589 | 0.509235644176521 | 0 | 4 (discreto) |
A partir de estos resultados, puede ver que había 12939 casos usados para construir el modelo, que la proporción de hombres a mujeres tenía aproximadamente 50-50, y que la edad media era de 44 años. Las estadísticas descriptivas varían en función de si el atributo que se notifica es un tipo de datos numérico continuo, como age o un tipo de valor discreto, como gender. La media y la varianza de las medidas estadísticas se calculan para los tipos de datos continuos, mientras que la probabilidad y la compatibilidad se calculan para los tipos de datos discretos.
Nota:
La varianza representa la varianza total del clúster. Cuando el valor de varianza es pequeño, indica que la mayoría de los valores de la columna estaban bastante cerca de la media. Para obtener la desviación estándar, calcule la raíz cuadrada de la varianza.
Tenga en cuenta que para cada uno de los atributos hay un Missing tipo de valor que indica cuántos casos no tenían datos para ese atributo. Los datos que faltan pueden ser significativos y afectan a los cálculos de diferentes maneras, en función del tipo de datos. Para obtener más información, consulte Valores que faltan (Analysis Services - Minería de datos).
Contenido del modelo para un modelo de agrupación en clústeres
En esta sección se proporcionan detalles y ejemplos solo para esas columnas del contenido del modelo de minería de datos que son pertinentes para los modelos de agrupación en clústeres.
Para obtener información sobre las columnas de uso general del conjunto de filas de esquema, como MODEL_CATALOG y MODEL_NAME, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).
CATÁLOGO_DE_MODELOS
Nombre de la base de datos donde se almacena el modelo.
MODEL_NAME
Nombre del modelo.
NOMBRE_DEL_ATRIBUTO
Siempre en blanco en los modelos de agrupación en clústeres porque no hay ningún atributo predecible en el modo .
NODE_NAME
Siempre igual que NODE_UNIQUE_NAME.
NODO_NOMBRE_UNICO
Identificador único del nodo dentro del modelo. Este valor no puede modificarse.
TIPO_DE_NODO
Un modelo de agrupación en clústeres genera los siguientes tipos de nodo:
| Id. de nodo y nombre | Descripción |
|---|---|
| 1 (Modelo) | Nodo raíz del modelo. |
| 5 (clúster) | Contiene un recuento de casos en el clúster, las características de los casos del clúster y las estadísticas que describen los valores del clúster. |
Etiqueta de nodo
Nombre amigable para fines de visualización. Al crear un modelo, el valor de NODE_UNIQUE_NAME se usa automáticamente como título. Sin embargo, puede cambiar el valor de NODE_CAPTION para actualizar el nombre para mostrar del clúster, ya sea mediante programación o mediante el visor.
Nota:
Al volver a procesar el modelo, los nuevos valores sobrescribirán todos los cambios de nombre. No se pueden conservar nombres en el modelo ni realizar un seguimiento de los cambios en la pertenencia al clúster entre distintas versiones de un modelo.
CARDINALIDAD_DE_HIJOS
Estimación del número de nodos hijos que tiene el nodo.
Nodo primario Indica el número de clústeres del modelo.
Nodos de clúster Siempre 0.
NOMBRE_UNICO_PADRE
Nombre único del elemento primario del nodo.
Nodo primario Siempre NULL
Nodos de clúster Normalmente 000.
DESCRIPCIÓN_DEL_NODO
Descripción del nodo.
Nodo padre Siempre (Todo).
Nodos de clúster Lista separada por comas de los atributos principales que distinguen el clúster de otros clústeres.
REGLA_NODO
No se usa para los modelos de agrupación en clústeres.
REGLA MARGINAL
No se usa para los modelos de agrupación en clústeres.
Probabilidad de Nodo
Probabilidad asociada a este nodo.
Nodo primario Siempre 1.
Nodos de clúster La probabilidad representa la probabilidad compuesta de los atributos, con algunos ajustes en función del algoritmo usado para crear el modelo de agrupación en clústeres.
PROBABILIDAD MARGINAL
Probabilidad de alcanzar el nodo desde el nodo primario. En un modelo de agrupación en clústeres, la probabilidad marginal es siempre la misma que la probabilidad del nodo.
Distribución de Nodo
Tabla que contiene el histograma de probabilidad del nodo.
Nodo primario Consulte la Introducción a este tema.
Nodos de clúster Representa la distribución de atributos y valores para los casos que se incluyen en este clúster.
SOPORTE_DE_NODO
Número de casos que admiten este nodo.
Nodo primario Indica el número de casos de entrenamiento para todo el modelo.
Nodos de clúster Indica el tamaño del clúster como un número de casos.
Nota Si el modelo usa la agrupación en clústeres K-Means, cada caso solo puede pertenecer a un clúster. Sin embargo, si el modelo usa la agrupación en clústeres EM, cada caso puede pertenecer a un clúster diferente y al caso se le asigna una distancia ponderada para cada clúster al que pertenece. Por lo tanto, para los modelos EM, la suma de compatibilidad con un clúster individual es mayor que la compatibilidad con el modelo general.
MSOLAP_MODEL_COLUMN
No se usa para los modelos de agrupación en clústeres.
MSOLAP_NODE_SCORE
Muestra una puntuación asociada al nodo.
Nodo primario Puntuación del criterio de información bayesiana (BIC) para el modelo de agrupación en clústeres.
Nodos de clúster Siempre 0.
MSOLAP_NODE_SHORT_CAPTION
Etiqueta que se usa con fines de visualización. No puede cambiar este título.
Nodo primario El tipo de modelo: Modelo de clúster
Nodos de clúster Nombre del clúster. Ejemplo: Clúster 1.
Observaciones
Analysis Services proporciona varios métodos para crear un modelo de agrupación en clústeres. Si no sabe con qué método se usó para crear el modelo con el que está trabajando, puede recuperar los metadatos del modelo mediante programación, mediante un cliente ADOMD o AMO, o consultando el conjunto de filas del esquema de minería de datos. Para obtener más información, vea Consultar los parámetros usados para crear un modelo de minería.
Nota:
La estructura y el contenido del modelo permanecen iguales, independientemente del método de agrupación en clústeres o parámetros que use.
Véase también
Contenido del modelo de minería de datos (Servicios de Análisis - Minería de datos)
Visores de modelos de minería de datos
Algoritmo de agrupación en clústeres de Microsoft
Consultas de minería de datos