Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Después de diseñar y procesar un modelo de minería utilizando la estructura de minería de datos subyacente, el modelo de minería se completa y contiene contenido del modelo de minería. Puede usar este contenido para realizar predicciones o analizar los datos.
El contenido del modelo de minería de datos incluye metadatos sobre el modelo, estadísticas sobre los datos y patrones detectados por el algoritmo de minería de datos. Según el algoritmo que se usó, el contenido del modelo puede incluir fórmulas de regresión, las definiciones de reglas y conjuntos de elementos, o pesos y otras estadísticas.
Independientemente del algoritmo que se usó, el contenido del modelo de minería de datos se presenta en una estructura estándar. Puede examinar la estructura en el Visor de árbol de contenido genérico de Microsoft, proporcionado en SQL Server Data Tools (SSDT) y, a continuación, cambiar a uno de los visores personalizados para ver cómo se interpreta y muestra la información gráficamente para cada tipo de modelo. También puede crear consultas en el contenido del modelo de minería de datos mediante cualquier cliente que admita el conjunto de filas de esquema MINING_MODEL_CONTENT. Para obtener más información, vea Tareas y procedimientos de consulta de minería de datos.
En esta sección se describe la estructura básica del contenido proporcionado para todo tipo de modelos de minería de datos. Describe los tipos de nodos que son comunes a todo el contenido del modelo de minería y ofrece orientaciones sobre cómo interpretar la información.
Estructura del contenido del modelo de minería
Nodos del contenido del modelo
Contenido del modelo de minería de datos por tipo de algoritmo
Herramientas para ver el contenido del modelo de minería
Herramientas para consultar el contenido del modelo de minería
Estructura del contenido del modelo de minería de datos
El contenido de cada modelo se presenta como una serie de nodos. Un nodo es un objeto dentro de un modelo de minería de datos que contiene metadatos e información sobre una parte del modelo. Los nodos se organizan en una jerarquía. La disposición exacta de los nodos de la jerarquía y el significado de la jerarquía depende del algoritmo que usó. Por ejemplo, si crea un modelo de árboles de decisión, el modelo puede contener varios árboles, todos conectados a la raíz del modelo; si crea un modelo de red neuronal, el modelo puede contener una o varias redes, además de un nodo de estadísticas.
El primer nodo de cada modelo se denomina nodo raíz o el nodo primario del modelo . Cada modelo tiene un nodo raíz (NODE_TYPE = 1). El nodo raíz normalmente contiene algunos metadatos sobre el modelo y el número de nodos secundarios, pero poca información adicional sobre los patrones detectados por el modelo.
En función del algoritmo que usó para crear el modelo, el nodo raíz tiene un número variable de nodos secundarios. Los nodos secundarios tienen significados diferentes y contienen contenido diferente, según el algoritmo y la profundidad y complejidad de los datos.
Nodos en el contenido del modelo de minería
En un modelo de minería de datos, un nodo es un contenedor de uso general que almacena un fragmento de información sobre todo o parte del modelo. La estructura de cada nodo es siempre la misma y contiene las columnas definidas por el conjunto de filas del esquema de minería de datos. Para obtener más información, consulte DMSCHEMA_MINING_MODEL_CONTENT Rowset.
Cada nodo incluye metadatos sobre el nodo, incluido un identificador único dentro de cada modelo, el identificador del nodo primario y el número de nodos secundarios que tiene el nodo. Los metadatos identifican el modelo al que pertenece el nodo y el catálogo de bases de datos donde se almacena ese modelo determinado. El contenido adicional proporcionado en el nodo difiere en función del tipo de algoritmo que usó para crear el modelo y puede incluir lo siguiente:
Recuento de casos en los datos de entrenamiento que respaldan un valor predicho específico.
Estadísticas, como media, desviación estándar o varianza.
Coeficientes y fórmulas.
Definición de reglas y punteros laterales.
Fragmentos XML que describen una parte del modelo.
Lista de tipos de nodo de contenido de minería de datos
En la tabla siguiente se enumeran los distintos tipos de nodos que se generan en los modelos de minería de datos. Dado que cada algoritmo procesa información de forma diferente, cada modelo solo genera algunos tipos específicos de nodos. Si cambia el algoritmo, el tipo de nodos puede cambiar. Además, si vuelve a procesar el modelo, el contenido de cada nodo puede cambiar.
Nota:
Si usa un servicio de minería de datos diferente al proporcionado en SQL Server 2014 Analysis Services (SSAS), o si crea sus propios algoritmos de complemento, es posible que haya tipos de nodo personalizados adicionales disponibles.
| ID DE NODE_TYPE | Etiqueta de nodo | Contenido del nodo |
|---|---|---|
| 1 | Modelo | Metadatos y nodo de contenido raíz. Se aplica a todos los tipos de modelos. |
| 2 | Árbol | Nodo raíz de un árbol de clasificación. Se aplica a los modelos de árbol de decisión. |
| 3 | Interior | Nodo dividido interior en un árbol. Se aplica a los modelos de árbol de decisión. |
| 4 | Distribución | Nodo terminal de un árbol. Se aplica a los modelos de árbol de decisión. |
| 5 | Clúster | Clúster detectado por el algoritmo. Se aplica a los modelos de agrupación en clústeres y a los modelos de agrupación en clústeres de secuencia. |
| 6 | Desconocido | Tipo de nodo desconocido. |
| 7 | ConjuntoDeElementos | Conjunto de elementos detectado por el algoritmo. Se aplica a los modelos de asociación o a los modelos de agrupación en clústeres de secuencia. |
| 8 | Regla de Asociación | Regla de asociación detectada por el algoritmo. Se aplica a los modelos de asociación o a los modelos de agrupación en clústeres de secuencia. |
| 9 | AtributoPredecible | Atributo predecible. Se aplica a todos los tipos de modelos. |
| 10 | InputAttribute | Atributo de entrada. Se aplica a los árboles de decisión y a los modelos bayes naïve. |
| 11 | InputAttributeState | Estadísticas sobre los estados de un atributo de entrada. Se aplica a los árboles de decisión y a los modelos bayes naïve. |
| 13 | Secuencia | Nodo principal para un componente del modelo de Markov en un grupo de secuencias. Se aplica a los modelos de agrupación en clústeres de secuencia. |
| 14 | Transición | Matriz de transición de Markov. Se aplica a los modelos de agrupación en clústeres de secuencia. |
| 15 | TimeSeries | Nodo no raíz de un árbol de series temporales. Solo se aplica a los modelos de serie temporal. |
| 16 | TsTree | Nodo raíz de un árbol de serie temporal que corresponde a una serie temporal predecible. Se aplica a los modelos de serie temporal y solo si el modelo se creó mediante el parámetro MIXED. |
| 17 | NNetSubnetwork | Una subred. Se aplica a los modelos de red neuronal. |
| 18 | NNetInputLayer | Grupo que contiene los nodos de la capa de entrada. Se aplica a los modelos de red neuronal. |
| 19 | NNetHiddenLayer | Grupos que contienen los nodos que describen la capa oculta. Se aplica a los modelos de red neuronal. |
| 21 | NNetOutputLayer | Grupos que contienen los nodos de la capa de salida. Se aplica a los modelos de red neuronal. |
| 21 | NNetInputNode | Nodo de la capa de entrada que coincide con un atributo de entrada con los estados correspondientes. Se aplica a los modelos de red neuronal. |
| 22 | NNetHiddenNode | Nodo en la capa oculta. Se aplica a los modelos de red neuronal. |
| 23 | NNetOutputNode | Nodo en la capa de salida. Este nodo normalmente coincidirá con un atributo de salida y los estados correspondientes. Se aplica a los modelos de red neuronal. |
| 24 | NNetMarginalNode | Estadísticas marginales sobre el conjunto de entrenamiento. Se aplica a los modelos de red neuronal. |
| 25 | RegressionTreeRoot | Raíz de un árbol de regresión. Se aplica a los modelos de regresión lineal y a los modelos de árboles de decisión que contienen atributos de entrada continuos. |
| 26 | NaiveBayesMarginalStatNode | Estadísticas marginales sobre el conjunto de entrenamiento. Se aplica a los modelos Bayes naïve. |
| 27 | ArimaRoot | Nodo raíz de un modelo ARIMA. Solo se aplica a los modelos de serie temporal que usan el algoritmo ARIMA. |
| 28 | ArimaPeriodicStructure | Estructura periódica en un modelo ARIMA. Solo se aplica a los modelos de serie temporal que usan el algoritmo ARIMA. |
| 29 | ArimaAutoRegressive | Coeficiente autoregresivo para un único término en un modelo ARIMA. Solo se aplica a los modelos de serie temporal que usan el algoritmo ARIMA. |
| 30 | ArimaMovingAverage | Coeficiente medio móvil para un solo término en un modelo ARIMA. Solo se aplica a los modelos de serie temporal que usan el algoritmo ARIMA. |
| 1 000 | CustomBase | Punto de partida para los tipos de nodo personalizados. Los tipos de nodo personalizados deben ser enteros mayores en valor que esta constante. Se aplica a los modelos creados mediante algoritmos de complemento personalizados. |
Id. de nodo, nombre, título y descripción
El nodo raíz de cualquier modelo siempre tiene el identificador único (NODE_UNIQUE_NAME) de 0. Analysis Services asigna automáticamente todos los identificadores de nodo y no se puede modificar.
El nodo raíz de cada modelo también contiene algunos metadatos básicos sobre el modelo. Estos metadatos incluyen la base de datos de Analysis Services donde se almacena el modelo (MODEL_CATALOG), el esquema (MODEL_SCHEMA) y el nombre del modelo (MODEL_NAME). Sin embargo, esta información se repite en todos los nodos del modelo, por lo que no es necesario consultar el nodo raíz para obtener estos metadatos.
Además de un nombre usado como identificador único, cada nodo tiene un nombre (NODE_NAME). El algoritmo crea automáticamente este nombre con fines de visualización y no se puede editar.
Nota:
El algoritmo de agrupación en clústeres de Microsoft permite a los usuarios asignar nombres descriptivos a cada clúster. Sin embargo, estos nombres amigables no se conservan en el servidor y, si vuelve a procesar el modelo, el algoritmo generará nuevos nombres de clúster.
El algoritmo genera automáticamente el título y la descripción de cada nodo y sirven como etiquetas para ayudarle a comprender el contenido del nodo. El texto generado para cada campo depende del tipo de modelo. En algunos casos, el nombre, el título y la descripción pueden contener exactamente la misma cadena, pero en algunos modelos, la descripción puede contener información adicional. Consulte el tema sobre el tipo de modelo individual para obtener más información sobre la implementación.
Nota:
El servidor de Analysis Services solo admite el cambio de nombre de los nodos si crea modelos mediante un algoritmo de complemento personalizado que implementa el cambio de nombre. Para habilitar el cambio de nombre, debe invalidar los métodos al crear el algoritmo del complemento.
Elementos primarios del nodo, elementos secundarios del nodo y cardinalidad del nodo
La relación entre los nodos primarios y secundarios de una estructura de árbol viene determinada por el valor de la columna PARENT_UNIQUE_NAME. Este valor se almacena en el nodo secundario y le indica el identificador del nodo primario. A continuación se muestran algunos ejemplos de cómo se puede usar esta información:
Un PARENT_UNIQUE_NAME que es NULL significa que el nodo es el nodo superior del modelo.
Si el valor de PARENT_UNIQUE_NAME es 0, el nodo debe ser un descendiente directo del nodo superior del modelo. Esto se debe a que el identificador del nodo raíz siempre es 0.
Puede usar funciones dentro de una consulta de Extensiones de Minería de Datos (DMX) para buscar descendientes o antecesores de un nodo determinado. Para obtener más información sobre el uso de funciones en consultas, vea Consultas de minería de datos.
La cardinalidad hace referencia al número de elementos de un conjunto. En el contexto de un modelo de minería de procesos, la cardinalidad indica el número de hijos de un nodo determinado. Por ejemplo, si un modelo de árbol de decisión tiene un nodo para [Yearly Income] y ese nodo tiene dos nodos secundarios, uno para la condición [Yearly Income] = High y otro para la condición, [Yearly Income] = Low, el valor de CHILDREN_CARDINALITY para el nodo [Yearly Income] sería 2.
Nota:
En Analysis Services, solo se cuentan los nodos secundarios inmediatos al calcular la cardinalidad de un nodo. Sin embargo, si crea un algoritmo de complemento personalizado, puede sobrecargar CHILDREN_CARDINALITY para contar la cardinalidad de forma diferente. Esto puede ser útil, por ejemplo, si desea contar el número total de descendientes, no solo los hijos inmediatos.
Aunque la cardinalidad se cuenta de la misma manera para todos los modelos, la interpretación o el uso del valor de cardinalidad difiere en función del tipo de modelo. Por ejemplo, en un modelo de agrupación en clústeres, la cardinalidad del nodo superior indica el número total de clústeres que se encontraron. En otros tipos de modelos, la cardinalidad siempre puede tener un valor establecido en función del tipo de nodo. Para obtener más información sobre cómo interpretar la cardinalidad, consulte el tema sobre el tipo de modelo individual.
Nota:
Algunos modelos, como los creados por el algoritmo de red neuronal de Microsoft, contienen además un tipo de nodo especial que proporciona estadísticas descriptivas sobre los datos de entrenamiento de todo el modelo. Por definición, estos nodos nunca tienen nodos secundarios.
Distribución de nodos
La columna NODE_DISTRIBUTION contiene una tabla anidada que en muchos nodos proporciona información importante y detallada sobre los patrones detectados por el algoritmo. Las estadísticas exactas proporcionadas en esta tabla cambian según el tipo de modelo, la posición del nodo del árbol y si el atributo de predicción es un valor numérico continuo o un valor discreto; sin embargo, pueden incluir los valores mínimo y máximo de un atributo, pesos asignados a valores, el número de casos en un nodo, coeficientes usados en una fórmula de regresión y medidas estadísticas como la desviación estándar y la varianza. Para obtener más información sobre cómo interpretar la distribución de nodos, consulte el tema del tipo de modelo específico con el que trabaja.
Nota:
La tabla NODE_DISTRIBUTION puede estar vacía, en función del tipo de nodo. Por ejemplo, algunos nodos solo sirven para organizar una colección de nodos secundarios y es los nodos secundarios que contienen las estadísticas detalladas.
La tabla anidada, NODE_DISTRIBUTION, siempre contiene las columnas siguientes. El contenido de cada columna varía en función del tipo de modelo. Para obtener más información sobre los tipos de modelo específicos, vea Contenido del modelo de minería de datos por tipo de algoritmo.
ATTRIBUTE_NAME
El contenido varía según el algoritmo. Puede ser el nombre de una columna, como un atributo de predicción, una regla, un conjunto de elementos o un fragmento de información interno para el algoritmo, como parte de una fórmula.
Esta columna también puede contener un par atributo-valor.
ATTRIBUTE_VALUE
Valor del atributo denominado en ATTRIBUTE_NAME.
Si el nombre del atributo es una columna, en el caso más sencillo, el ATTRIBUTE_VALUE contiene uno de los valores discretos de esa columna.
Dependiendo de cómo procesa los valores el algoritmo, el ATTRIBUTE_VALUE también puede contener una marca que indica si existe un valor para el atributo () o si el valor es null (ExistingMissing).
Por ejemplo, si el modelo está configurado para buscar clientes que hayan comprado un elemento determinado al menos una vez, la columna ATTRIBUTE_NAME podría contener el par atributo-valor que define el elemento de interés, como Model = 'Water bottle'y la columna ATTRIBUTE_VALUE solo contendrá la palabra clave Existing o Missing.
SOPORTE TÉCNICO
Recuento de los casos que tienen este par atributo-valor o que contienen este conjunto de elementos o regla.
En general, para cada nodo, el valor de soporte indica cuántos casos del conjunto de datos de entrenamiento se incluyen en el nodo actual. En la mayoría de los tipos de modelo, el soporte representa un recuento exacto de casos. Los valores de soporte son útiles porque puedes ver la distribución de datos dentro de los casos de entrenamiento sin tener que consultar los datos de entrenamiento. El servidor de Analysis Services también usa estos valores almacenados para calcular la probabilidad almacenada frente a la probabilidad anterior, para determinar si la inferencia es fuerte o débil.
Por ejemplo, en un árbol de clasificación, el valor de compatibilidad indica el número de casos que tienen la combinación descrita de atributos.
En un árbol de decisión, la suma de soporte en cada nivel de un árbol equivale al soporte de su nodo padre. Por ejemplo, si un modelo que contiene 1200 casos se divide equitativamente por género y luego se subdivide por tres categorías de ingreso: bajo, medio y alto, los nodos secundarios del nodo (2), que son los nodos (4), (5) y (6), siempre suman el mismo número de casos que el nodo (2).
| Identificador de nodo y atributos de nodo | Recuento de soporte técnico |
|---|---|
| (1) Raíz del modelo | 1200 |
| (2) Género = Masculino (3) Género = Mujer |
600 600 |
| (4) Género = Masculino e Ingresos = Alto (5) Género = Masculino e Ingreso = Medio (6) Género = Masculino e Ingresos = Bajos |
200 200 200 |
| (7) Género = Mujer e Ingresos = Alto (8) Género = Femenino e Ingresos = Medio (9) Género = Mujer e Ingresos = Bajo |
200 200 200 |
Para un modelo de agrupación, el número de soporte se puede ponderar para incluir las probabilidades de pertenecer a varios clústeres. La pertenencia a varios clústeres es el método de agrupación en clústeres predeterminado. En este escenario, dado que cada caso no pertenece necesariamente a uno y solo a un clúster, es posible que la compatibilidad con estos modelos no agregue hasta el 100 % en todos los clústeres.
PROBABILIDAD
Indica la probabilidad de este nodo específico dentro del modelo completo.
Por lo general, la probabilidad representa la compatibilidad con este valor determinado, dividido por el recuento total de casos dentro del nodo (NODE_SUPPORT).
Sin embargo, la probabilidad se ajusta ligeramente para eliminar el sesgo causado por los valores que faltan en los datos.
Por ejemplo, si los valores actuales de [Total Children] son "uno" y "dos", quieres evitar crear un modelo que prediga que no es posible no tener hijos o tener tres hijos. Para asegurarse de que los valores que faltan son improbables, pero no imposibles, el algoritmo siempre agrega 1 al recuento de valores reales de cualquier atributo.
Ejemplo:
Probabilidad de [Total children = One] = [Recuento de casos en los que total de niños = uno] + 1/[Recuento de todos los casos] + 3
Probabilidad de [Total de niños = Dos]= [Recuento de casos en los que total de niños = dos] +1/[Recuento de todos los casos] +3
Nota:
El ajuste de 3 se calcula agregando 1 al número total de valores existentes, n.
Después del ajuste, las probabilidades de todos los valores siguen sumando hasta 1. La probabilidad del valor sin datos (en este ejemplo, [Total Children = 'Zero', 'Three' o algún otro valor]), comienza en un nivel distinto de cero muy bajo y aumenta lentamente a medida que se agregan más casos.
VARIANZA
Indica la varianza de los valores dentro del nodo. Por definición, la varianza siempre es 0 para los valores discretos. Si el modelo admite valores continuos, la varianza se calcula como σ (sigma), mediante el denominador n o el número de casos del nodo.
Hay dos definiciones en general para representar la desviación estándar (StDev). Un método para calcular la desviación estándar tiene en cuenta el sesgo y otro método calcula la desviación estándar sin usar el sesgo. En general, los algoritmos de minería de datos de Microsoft no usan sesgos al calcular la desviación estándar.
El valor que aparece en la tabla NODE_DISTRIBUTION es el valor real para todos los atributos discretos y discretizados, y la media para valores continuos.
VALUE_TYPE
Indica el tipo de datos del valor o un atributo y el uso del valor. Algunos tipos de valor solo se aplican a determinados tipos de modelo:
| id. de VALUE_TYPE | Etiqueta de valor | Nombre del tipo de valor |
|---|---|---|
| 1 | Desaparecido | Indica que los datos de caso no contenían un valor para este atributo. El Missing estado se calcula independientemente de los atributos que tienen valores. |
| 2 | Existente | Indica que los datos de caso contienen un valor para este atributo. |
| 3 | Continuo | Indica que el valor del atributo es un valor numérico continuo y, por tanto, se puede representar mediante una media, junto con la varianza y la desviación estándar. |
| 4 | Discreto | Indica un valor, numérico o texto, que se trata como discreto. Nota También pueden faltar valores discretos; sin embargo, se controlan de forma diferente al realizar cálculos. Para obtener información, consulte Valores que faltan (Analysis Services - Minería de datos). |
| 5 | Discretizado | Indica que el atributo contiene valores numéricos que se han discretizado. El valor será una cadena con formato que describe los cubos de discretización. |
| 6 | Existente | Indica que el atributo tiene valores numéricos continuos y que los valores se han proporcionado en los datos, frente a los valores que faltan o se deducen. |
| 7 | Coeficiente | Indica un valor numérico que representa un coeficiente. Un coeficiente es un valor que se aplica al calcular el valor de la variable dependiente. Por ejemplo, si el modelo crea una fórmula de regresión que predice los ingresos en función de la edad, el coeficiente se usa en la fórmula que relaciona la edad con los ingresos. |
| 8 | Ganancia de puntuación | Indica un valor numérico que representa la ganancia de puntuación de un atributo. |
| 9 | Estadísticas | Indica un valor numérico que representa una estadística para un regresor. |
| 10 | Nombre único del nodo | Indica que el valor no debe controlarse como numérico o cadena, sino como identificador único de otro nodo de contenido en un modelo. Por ejemplo, en un modelo de red neuronal, los identificadores proporcionan punteros de los nodos de la capa de salida a los nodos de la capa oculta y de los nodos de la capa oculta a los nodos de la capa de entrada. |
| 11 | Interseccion.Eje | Indica un valor numérico que representa la interceptación en una fórmula de regresión. |
| 12 | Periodicidad | Indica que el valor denota una estructura periódica en un modelo. Solo se aplica a los modelos de serie temporal que contienen un modelo ARIMA. Nota: El algoritmo de serie temporal de Microsoft detecta automáticamente estructuras periódicas basadas en los datos de entrenamiento. Como resultado, las periodicidades del modelo final pueden incluir valores de periodicidad que no proporcionó como parámetro al crear el modelo. |
| 13 | Orden autoregresivo | Indica que el valor representa el número de series autorregresivas. Se aplica a los modelos de serie temporal que usan el algoritmo ARIMA. |
| 14 | Orden medio móvil | Representa un valor que representa el número de medias móviles de una serie. Se aplica a los modelos de serie temporal que usan el algoritmo ARIMA. |
| 15 | Orden de diferencias | Indica que el valor representa un valor que indica cuántas veces se diferencia la serie. Se aplica a los modelos de serie temporal que usan el algoritmo ARIMA. |
| 16 | Booleano | Representa un tipo booleano. |
| 17 | Otros | Representa un valor personalizado definido por el algoritmo. |
| 18 | Cadena prerenderizada | Representa un valor personalizado que el algoritmo representa como una cadena. El modelo de objetos no aplicó ningún formato. |
Los tipos de valor se derivan de la enumeración ADMOMD.NET. Para obtener más información, vea Microsoft.AnalysisServices.AdomdServer.MiningValueType.
Puntuación de nodo
El significado de la puntuación del nodo difiere en función del tipo de modelo y también puede ser específico del tipo de nodo. Para obtener información sobre cómo se calcula NODE_SCORE para cada modelo y tipo de nodo, vea Contenido del modelo de minería de datos por tipo de algoritmo.
Probabilidad de nodo y probabilidad marginal
El conjunto de filas de esquema del modelo de minería de datos incluye las columnas NODE_PROBABILITY y MARGINAL_PROBABILITY para todos los tipos de modelo. Estas columnas solo contienen valores en nodos donde un valor de probabilidad es significativo. Por ejemplo, el nodo raíz de un modelo nunca contiene una puntuación de probabilidad.
En esos nodos que proporcionan puntuaciones de probabilidad, la probabilidad de nodo y las probabilidades marginales representan cálculos diferentes.
La probabilidad marginal es la probabilidad de alcanzar el nodo desde su elemento primario.
La probabilidad del nodo es la probabilidad de alcanzar el nodo desde la raíz.
La probabilidad del nodo siempre es menor o igual que la probabilidad marginal.
Por ejemplo, si la población de todos los clientes de un árbol de decisión se divide igualmente por género (y no faltan valores), la probabilidad de los nodos hijos debe ser 0.5. Sin embargo, supongamos que cada uno de los nodos de género se divide equitativamente por niveles de ingresos-Alto, Medio y Bajo. En este caso, la puntuación de MARGINAL_PROBABILITY para cada nodo secundario siempre debe ser .33, pero el valor de NODE_PROBABILTY será el producto de todas las probabilidades que conducen a ese nodo y, por tanto, siempre menor que el valor de MARGINAL_PROBABILITY.
| Nivel de nodo/atributo y valor | Probabilidad marginal | Probabilidad de nodo |
|---|---|---|
| Raíz del modelo Todos los clientes objetivo |
1 | 1 |
| Clientes de destino divididos por género | .5 | .5 |
| Dirigirse a los clientes divididos por género y dividir de nuevo tres maneras por ingresos | .33 | .5 * .33 = .165 |
Regla de nodo y regla marginal
El conjunto de filas de esquema del modelo de minería de datos también incluye las columnas NODE_RULE y MARGINAL_RULE para todos los tipos de modelo. Estas columnas contienen fragmentos XML que se pueden usar para serializar un modelo o para representar parte de la estructura del modelo. Estas columnas pueden estar en blanco para algunos nodos, si un valor no tiene sentido.
Se proporcionan dos tipos de reglas XML, similares a los dos tipos de valores de probabilidad. El fragmento XML de MARGINAL_RULE define el atributo y el valor del nodo actual, mientras que el fragmento XML de NODE_RULE describe la ruta de acceso al nodo actual desde la raíz del modelo.
Contenido del modelo de minería de datos por tipo de algoritmo
Cada algoritmo almacena diferentes tipos de información como parte de su esquema de contenido. Por ejemplo, el algoritmo de agrupación en clústeres de Microsoft genera muchos nodos secundarios, cada uno de los cuales representa un clúster posible. Cada nodo de clúster contiene reglas que describen las características compartidas por elementos del clúster. En cambio, el algoritmo de regresión lineal de Microsoft no contiene ningún nodo secundario; en su lugar, el nodo primario del modelo contiene la ecuación que describe la relación lineal detectada por el análisis.
En la tabla siguiente se proporcionan vínculos a temas para cada tipo de algoritmo.
Temas de contenido del modelo: Explique el significado de cada tipo de nodo para cada tipo de algoritmo y proporcione instrucciones sobre qué nodos son de mayor interés en un tipo de modelo determinado.
Consulta de temas: Proporcione ejemplos de consultas en un tipo de modelo determinado e instrucciones sobre cómo interpretar los resultados.
Herramientas para visualizar el contenido de los modelos de minería
Al examinar o explorar un modelo en SQL Server Data Tools (SSDT), puede ver la información en el Visor de árboles de contenido genérico de Microsoft, que está disponible en SQL Server Data Tools (SSDT) y SQL Server Management Studio.
El Visor de contenido genérico de Microsoft muestra las columnas, reglas, propiedades, atributos, nodos y otro contenido del modelo mediante la misma información que está disponible en el conjunto de filas de esquema de contenido del modelo de minería de datos. El conjunto de filas de esquema de contenido es un marco genérico para presentar información detallada sobre el contenido de un modelo de minería de datos. Puede ver el contenido del modelo en cualquier cliente que admita conjuntos de filas jerárquicos. El visor de SQL Server Data Tools (SSDT) presenta esta información en un visor de tablas HTML que representa todos los modelos en un formato coherente, lo que facilita la comprensión de la estructura de los modelos que se crean. Para obtener más información, vea Examinar un modelo mediante el Visor de árbol de contenido genérico de Microsoft.
Herramientas para consultar el contenido del modelo de minería de datos
Para recuperar el contenido del modelo de minería de datos, debe crear una consulta en el modelo de minería de datos.
La manera más fácil de crear una consulta de contenido es ejecutar la siguiente instrucción DMX en SQL Server Management Studio:
SELECT * FROM [<mining model name>].CONTENT
Para obtener más información, consulte Consultas de minería de datos.
También puede consultar el contenido del modelo de minería de datos mediante los conjuntos de filas del esquema de minería de datos. Un conjunto de filas de esquema es una estructura estándar que los clientes usan para descubrir, explorar y consultar información sobre estructuras y modelos de minería de datos. Puede consultar los conjuntos de filas de esquema mediante instrucciones XMLA, Transact-SQL o DMX.
En SQL Server 2014, también puede acceder a la información de los conjuntos de filas del esquema de minería de datos abriendo una conexión a la instancia de Analysis Services y consultando las tablas del sistema. Para obtener más información, vea Consultar los conjuntos de filas del esquema de minería de datos (Analysis Services - Minería de datos).
Véase también
Visor de árbol de contenido genérico de Microsoft (minería de datos)
Algoritmos de minería de datos (Analysis Services - Minería de datos)