Compartilhar via


Conteúdo do Modelo de Mineração para Modelos Naive Bayes (Serviços de Análise - Mineração de Dados)

Este tópico descreve o conteúdo do modelo de mineração específico para modelos que usam o algoritmo Microsoft Naive Bayes. Para obter uma explicação de como interpretar estatísticas e estrutura compartilhadas por todos os tipos de modelo e definições gerais de termos relacionados ao conteúdo do modelo de mineração, consulte Conteúdo do Modelo de Mineração (Analysis Services – Mineração de Dados).

Noções básicas sobre a estrutura de um modelo naive bayes

Um modelo naive Bayes tem um único nó pai que representa o modelo e seus metadados, e abaixo desse nó pai, qualquer número de árvores independentes que representam os atributos previsíveis que você selecionou. Além das árvores para os atributos, cada modelo contém um nó de estatística marginal (NODE_TYPE = 26) que fornece estatísticas descritivas sobre o conjunto de casos de treinamento. Para obter mais informações, consulte Informações no nó Estatísticas Marginais.

Para cada atributo e valor previsíveis, o modelo gera uma árvore que contém informações que descrevem como as várias colunas de entrada afetaram o resultado desse previsível específico. Cada árvore contém o atributo previsível e seu valor (NODE_TYPE = 9) e uma série de nós que representam os atributos de entrada (NODE_TYPE = 10). Como os atributos de entrada normalmente têm vários valores, cada atributo de entrada (NODE_TYPE = 10) pode ter vários nós filho (NODE_TYPE = 11), cada um para um estado específico do atributo.

Observação

Como um modelo Naive Bayes não permite tipos de dados contínuos, todos os valores das colunas de entrada são tratados como discretos ou discretizados. Você pode especificar como um valor é discreto. Para obter mais informações, altere a discretização de uma coluna em um modelo de mineração.

estrutura do conteúdo do modelo para

Conteúdo para um modelo de Naive Bayes

Esta seção fornece detalhes e exemplos apenas para essas colunas no conteúdo do modelo de mineração que têm relevância particular para modelos naive Bayes.

Para obter informações sobre colunas de uso geral no conjunto de linhas de esquema, como MODEL_CATALOG e MODEL_NAME, que não são descritas aqui ou para obter explicações sobre a terminologia do modelo de mineração, consulte Conteúdo do Modelo de Mineração (Analysis Services – Mineração de Dados).

CATÁLOGO_DE_MODELOS
Nome do banco de dados em que o modelo é armazenado.

MODEL_NAME
Nome do modelo.

ATTRIBUTE_NAME
Os nomes dos atributos que correspondem a esse nó.

Raiz do modelo O nome do atributo previsível.

Estatísticas marginais Não aplicável

Atributo previsível O nome do atributo previsível.

Atributo de entrada O nome do atributo de entrada.

Estado do atributo de entrada O nome apenas do atributo de entrada. Para obter o estado, use MSOLAP_NODE_SHORT_CAPTION.

NODE_NAME
O nome do nó.

Esta coluna contém o mesmo valor que NODE_UNIQUE_NAME.

Para obter mais informações sobre convenções de nomenclatura de nós, consulte Usando nomes e IDs de nós.

NOME_UNICO_DO_NÓ
O nome exclusivo do nó. Os nomes exclusivos são atribuídos de acordo com uma convenção que fornece informações sobre as relações entre os nós. Para obter mais informações sobre convenções de nomenclatura de nó, consulte Como usar IDs e nomes de nó.

NODE_TYPE
Um modelo Naive Bayes gera os seguintes tipos de nós:

ID do tipo de nó Descrição
26 (NaiveBayesMarginalStatNode) Contém estatísticas que descrevem todo o conjunto de casos de treinamento para o modelo.
9 (atributo previsível) Contém o nome do atributo previsível.
10 (atributo de entrada) Contém o nome de uma coluna de atributo de entrada e nós filho que contém os valores do atributo.
11 (Estado do atributo de entrada) Contém os valores ou valores discretos de todos os atributos de entrada que foram emparelhados com um atributo de saída específico.

NODE_CAPTION
O rótulo ou uma legenda associada ao nó. Essa propriedade é principalmente para fins de exibição.

Raiz do modelo em branco

Estatísticas marginais em branco

Atributo previsível O nome do atributo previsível.

Atributo de entrada O nome do atributo previsível e o atributo de entrada atual. Por exemplo:

Comprador de Bicicletas -> Idade

Estado do atributo de entrada O nome do atributo previsível e o atributo de entrada atual, além do valor da entrada. Por exemplo:

Comprador de Bicicletas -> Idade = Não informado

CARDINALIDADE_DOS_FILHOS
O número de filhos que o nó tem.

Raiz do modelo Contagem de atributos previsíveis no modelo, mais 1 para incluir o nó de estatísticas marginais.

Estatísticas marginais Por definição, não tem filhos.

Atributo previsível Contagem dos atributos de entrada relacionados ao atributo previsível atual.

Atributo de entrada Contagem dos valores discretos ou discretizados para o atributo de entrada atual.

Estado do atributo de entrada Sempre 0.

NOME_ÚNICO_PAI
O nome exclusivo do nó pai. Para obter mais informações sobre como relacionar nós de parentesco entre pai e filho, consulte Usando nomes e IDs de nós.

DESCRIÇÃO_DO_NODO
O mesmo que a legenda do nó.

NODE_RULE
Uma representação XML da legenda do nó.

Regra Marginal
O mesmo que a regra do nó de rede.

PROBABILIDADE_DO_NÓ
A probabilidade associada a esse nó.

Raiz do modelo Sempre 0.

Estatísticas marginais Sempre 0.

Atributo previsível Sempre 1.

Atributo de entrada Sempre 1.

Estado do atributo de entrada Um número decimal que representa a probabilidade do valor atual. Valores para todos os estados de atributo de entrada sob o nó de atributo de entrada pai somam 1.

Probabilidade Marginal
O mesmo que a probabilidade do nó.

DISTRIBUIÇÃO_DE_NÓDULOS
Uma tabela que contém o histograma de probabilidade para o nó. Para obter mais informações, consulte NODE_DISTRIBUTION Table.

NODE_SUPPORT
O número de casos que oferecem suporte a este nó.

Raiz do modelo Contagem de todos os casos nos dados de treinamento.

Estatísticas marginais Sempre 0.

Atributo "Predictable" Contagem de todos os casos nos dados de treinamento.

Atributo de entrada Contagem de todos os casos nos dados de treinamento.

Estado do atributo de entrada Contagem de casos em dados de treinamento que contêm apenas esse valor específico.

MSOLAP_MODEL_COLUMN
Um rótulo usado para fins de exibição. Normalmente o mesmo que ATTRIBUTE_NAME.

MSOLAP_NODE_SCORE
Representa a importância do atributo ou valor dentro do modelo.

Raiz do modelo Sempre 0.

Estatísticas marginais Sempre 0.

Atributo previsível Sempre 0.

Atributo de entrada Pontuação de interessante para o atributo de entrada atual em relação ao atributo previsível atual.

Estado do atributo de entrada Sempre 0.

MSOLAP_NODE_SHORT_CAPTION
Uma cadeia de caracteres de texto que representa o nome ou o valor de uma coluna.

Raiz do modelo Em branco

Estatísticas marginais Em branco

Atributo previsível O nome do atributo previsível.

Atributo de entrada O nome do atributo de entrada.

Estado do atributo de entrada O valor ou o valor discreto do atributo de entrada.

Usando nomes de nó e IDs

A nomenclatura dos nós em um modelo Naive Bayes fornece informações adicionais sobre o tipo de nó, para facilitar a compreensão das relações entre as informações no modelo. A tabela a seguir mostra a convenção para as identificações atribuídas a diferentes tipos de nó.

Tipo de nó Convenção para ID do nó
Raiz do modelo (1) Sempre 0.
Nó de estatísticas marginais (26) Um valor de ID arbitrário.
Atributo previsível (9) Número hexadecimal começando com 100000000

Exemplo: 100000001, 10000000b
Atributo de entrada (10) Um número hexadecimal de duas partes em que a primeira parte é sempre 20000000, e a segunda parte começa com o identificador hexadecimal do atributo previsível relacionado.

Exemplo: 20000000b0000000000

Nesse caso, o atributo previsível relacionado é 10000000b.
Estado do atributo de entrada (11) Um número hexadecimal de três partes em que a primeira parte é sempre 300000000, a segunda parte começa com o identificador hexadecimal do atributo previsível relacionado e a terceira parte representa o identificador do valor.

Exemplo: 30000000b00000000020000000000

Nesse caso, o atributo previsível relacionado é 10000000b.

Você pode usar as IDs para relacionar atributos de entrada e estados a um atributo previsível. Por exemplo, a consulta a seguir retorna os nomes e legendas dos nós que representam as possíveis combinações de atributos de entrada e previsíveis para o modelo, TM_NaiveBayes.

SELECT NODE_NAME, NODE_CAPTION  
FROM TM_NaiveBayes.CONTENT  
WHERE NODE_TYPE = 10  

Resultados esperados:

NODE_NAME NODE_CAPTION
20000000000000001 Comprador de Bicicletas –> Distância do Trajeto
20000000000000002 Comprador de Bicicletas –> Educação Em Inglês
20000000000000003 Comprador de Bicicletas -> Ocupação em Inglês
20000000000000009 Comprador de Bicicletas -> Estado Civil
2000000000000000a Comprador de bicicletas -> Número de crianças em casa
2000000000000000b Comprador de Bicicletas –> Região
2000000000000000c Comprador de Bicicletas –> Total de Filhos

Em seguida, você pode usar as IDs dos nós pai para recuperar os nós filho. A consulta a seguir recupera os nós que contêm valores para o Marital Status atributo, juntamente com a probabilidade de cada nó.

SELECT NODE_NAME, NODE_CAPTION, NODE_PROBABILITY  
FROM TM_NaiveBayes.CONTENT  
WHERE NODE_TYPE = 11  
AND [PARENT_UNIQUE_NAME] = '20000000000000009'  

Observação

O nome da coluna, PARENT_UNIQUE_NAME, deve estar entre colchetes para distingui-la da palavra-chave reservada de mesmo nome.

Resultados esperados:

NODE_NAME NODE_CAPTION PROBABILIDADE_DO_NÓ
3000000000000000900000000 Comprador de Bicicletas -> Estado Civil = Ausente 0
3000000000000000900000001 Comprador de Bicicletas -> Estado Civil = S 0.457504004
3000000000000000900000002 Comprador de Bicicletas -> Estado Civil = M 0.542495996

Tabela NODE_DISTRIBUTION

A coluna aninhada da tabela, NODE_DISTRIBUTION, geralmente contém estatísticas sobre a distribuição dos valores em cada nó. Em um modelo naive Bayes, esta tabela é preenchida somente para os seguintes nós:

Tipo de nó Conteúdo da tabela aninhada
Raiz do modelo (1) Em branco.
Nó de estatísticas marginais (24) Contém informações resumidas para todos os atributos previsíveis e atributos de entrada para todo o conjunto de dados de treinamento.
Atributo previsível (9) Em branco.
Atributo de entrada (10) Em branco.
Estado do atributo de entrada (11) Contém estatísticas que descrevem a distribuição de valores nos dados de treinamento para essa combinação específica de um valor previsível e um valor de atributo de entrada.

Você pode usar as IDs dos nós ou legendas dos nós para recuperar níveis de detalhe crescentes. Por exemplo, a consulta a seguir recupera colunas específicas da tabela NODE_DISTRIBUTION somente para os nós de atributo de entrada relacionados ao valor 'Marital Status = S'.

SELECT FLATTENED NODE_CAPTION,  
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [SUPPORT], [PROBABILITY], VALUETYPE  
FROM NODE_DISTRIBUTION) as t  
FROM TM_NaiveBayes.content  
WHERE NODE_TYPE = 11  
AND NODE_CAPTION = 'Bike Buyer -> Marital Status = S'  

Resultados esperados:

NODE_CAPTION t.ATTRIBUTE_NAME t.ATTRIBUTE_VALUE t.Suporte t.PROBABILIDADE t.VALUETYPE
Comprador de Bicicletas -> Estado Civil = S Comprador de Bicicletas Em falta 0 0 1
Comprador de Bicicletas -> Estado Civil = S Comprador de Bicicletas 0 3783 0.472934117 4
Comprador de Bicicletas -> Estado Civil = S Comprador de Bicicletas 1 4216 0.527065883 4

Nesses resultados, o valor da coluna SUPPORT informa a contagem de clientes com o estado civil específico que fizeram a compra de uma bicicleta. A coluna PROBABILITY contém a probabilidade de cada valor de atributo, calculada apenas para este nó. Para obter definições gerais dos termos usados na tabela NODE_DISTRIBUTION, consulte Conteúdo do Modelo de Mineração (Analysis Services – Mineração de Dados).

Informações no nó Estatísticas Marginais

Em um modelo Naive Bayes, a tabela aninhada para o nó de estatísticas marginais contém a distribuição dos valores para todo o conjunto de dados de treinamento. Por exemplo, a tabela a seguir contém uma lista parcial das estatísticas na tabela de NODE_DISTRIBUTION aninhada do modelo: TM_NaiveBayes

ATTRIBUTE_NAME ATTRIBUTE_VALUE APOIO PROBABILIDADE VARIAÇÃO TIPODEVALOR
Comprador de Bicicletas Em falta 0 0 0 1
Comprador de Bicicletas 0 8869 0.507263784 0 4
Comprador de Bicicletas 1 8615 0.492736216 0 4
Estado civil Em falta 0 0 0 1
Estado civil S 7999 0.457504004 0 4
Estado civil M 9485 0.542495996 0 4
Total de filhos Em falta 0 0 0 1
Total de filhos 0 4865 0.278254404 0 4
Total de filhos 3 2093 0.119709449 0 4
Total de filhos 1 3406 0.19480668 0 4

A Bike Buyer coluna é incluída porque o nó de estatísticas marginais sempre contém uma descrição do atributo previsível e seus valores possíveis. Todas as outras colunas listadas representam atributos de entrada, juntamente com os valores que foram usados no modelo. Os valores só podem estar ausentes, discretos ou discretizados.

Em um modelo naive Bayes, não pode haver atributos contínuos; portanto, todos os dados numéricos são representados como discretos (VALUE_TYPE = 4) ou discretos (VALUE_TYPE = 5).

Um Missing valor (VALUE_TYPE = 1) é adicionado a cada atributo de entrada e saída para representar valores potenciais que não estavam presentes nos dados de treinamento. Você deve ter cuidado para distinguir entre "ausente" como uma cadeia de caracteres e o valor padrão Missing . Para obter mais informações, consulte Valores Ausentes (Analysis Services – Mineração de Dados).

Consulte Também

Conteúdo do modelo de mineração (Analysis Services – Mineração de dados)
Visualizadores do modelo de Mineração de dados
Consultas de mineração de dados
Algoritmo Microsoft Naive Bayes