Compartilhar via


Matriz de classificação (Analysis Services – Mineração de dados)

Uma matriz de classificação classifica todos os casos do modelo em categorias, determinando se o valor previsto correspondeu ao valor real. Todos os casos em cada categoria são contados e os totais são exibidos na matriz. A matriz de classificação é uma ferramenta padrão para avaliação de modelos estatísticos e, às vezes, é conhecida como uma matriz de confusão.

O gráfico criado quando você escolhe a opção Matriz de Classificação compara valores reais com os valores previstos para cada estado previsto que você especificar. As linhas na matriz representam os valores previstos para o modelo, enquanto as colunas representam os valores reais. As categorias usadas na análise são falso positivo, verdadeiro positivo, falso negativo e verdadeiro negativo

Uma matriz de classificação é uma ferramenta importante para avaliar os resultados da previsão, pois facilita o entendimento e a contabilidade dos efeitos de previsões erradas. Ao exibir a quantidade e os percentuais em cada célula dessa matriz, você pode ver rapidamente com que frequência o modelo previu com precisão.

Esta seção explica como criar uma matriz de classificação e como interpretar os resultados.

Noções básicas sobre a matriz de classificação

Considere o modelo que você criou como parte do Tutorial básico de mineração de dados. O modelo [TM_DecisionTree] é usado para ajudar a criar uma campanha de endereçamento direcionada e pode ser usado para prever quais clientes são mais propensos a comprar uma bicicleta. Para testar essa utilidade esperada desse modelo, você usa um conjunto de dados para o qual os valores do atributo de resultado, [Bike Buyer], já são conhecidos. Normalmente, você usaria o conjunto de dados de teste que você deixou de lado ao criar a estrutura de mineração usada para treinar o modelo.

Há apenas dois resultados possíveis: sim (é provável que o cliente compre uma bicicleta) e não (o cliente provavelmente não comprará uma bicicleta). Portanto, a matriz de classificação resultante é relativamente simples.

Interpretando os resultados

A tabela a seguir mostra a matriz de classificação para o modelo de TM_DecisionTree. Lembre-se de que, para esse atributo previsível, 0 significa Não e 1 significa Sim.

Previsto 0 (Real) 1 (Real)
0 362 144
1 121 373

A primeira célula de resultado, que contém o valor 362, indica o número de verdadeiros positivos para o valor 0. Como 0 indica que o cliente não comprou uma bicicleta, essa estatística informa que o modelo previu o valor correto para não compradores de bicicleta em 362 casos.

A célula diretamente abaixo dessa, que contém o valor 121, informa o número de falsos positivos ou quantas vezes o modelo previu que alguém compraria uma bicicleta quando realmente não o fizesse.

A célula que contém o valor 144 indica o número de falsos positivos para o valor 1. Como 1 significa que o cliente comprou uma bicicleta, essa estatística informa que em 144 casos, o modelo previu que alguém não compraria uma bicicleta quando, na verdade, comprasse.

Por fim, a célula que contém o valor 373 indica o número de verdadeiros positivos para o valor-alvo 1. Em outras palavras, em 373 casos, o modelo previu corretamente que alguém compraria uma bicicleta.

Ao resumir os valores em células adjacentes diagonalmente, você pode determinar a precisão geral do modelo. Uma diagonal informa o número total de previsões precisas e a outra diagonal informa o número total de previsões errôneas.

Usando vários valores previsíveis

O caso [Bike Buyer] é especialmente fácil de interpretar porque há apenas dois valores possíveis. Quando o atributo previsível tem vários valores possíveis, a matriz de classificação adiciona uma nova coluna para cada valor real possível e conta o número de correspondências para cada valor previsto. A tabela a seguir mostra os resultados em um modelo diferente, em que três valores (0, 1, 2) são possíveis.

Previsto 0 (Real) 1 (Real) 2 (Real)
0 111 3 5
1 2 123 17
2 19 0 20

Embora a adição de mais colunas faça com que o relatório pareça mais complexo, os detalhes adicionais podem ser muito úteis quando você deseja avaliar o custo cumulativo de fazer a previsão errada. Para criar somas nas diagonais ou comparar os resultados de diferentes combinações de linhas, clique no botão Copiar fornecido na guia Matriz de Classificação e cole o relatório no Excel. Como alternativa, você pode usar um cliente como o Cliente de Mineração de Dados para Excel, que dá suporte ao SQL Server 2005 e versões posteriores, para criar um relatório de classificação diretamente no Excel que inclua contagens e porcentagens. Para obter mais informações, consulte SQL Server Data Mining.

Restrições na matriz de classificação

Uma matriz de classificação só pode ser usada com atributos previsíveis discretos.

Embora você possa adicionar vários modelos ao selecionar modelos na guia Seleção de Entrada do designer do Gráfico de Precisão de Mineração, a guia Matriz de Classificação exibirá uma matriz separada para cada modelo.

Os tópicos a seguir contêm mais informações sobre como você pode criar e usar matrizes de classificação e outros gráficos.

Tópicos Links
Fornece um passo a passo de como criar um gráfico de elevação para o modelo de Endereçamento Direcionado. Tutorial básico de mineração de dados

Testando a precisão com gráficos de elevação (Tutorial básico de mineração de dados)
Explica os tipos de gráfico relacionados. Gráfico de elevação (Analysis Services – Mineração de dados)

Gráfico de Lucros (Analysis Services – Mineração de Dados)

Gráfico de dispersão (Analysis Services – Mineração de dados)
Descreve os usos de validação cruzada para modelos de mineração e estruturas de mineração. Validação cruzada (Analysis Services – Mineração de dados)
Descreve as etapas para criar gráficos de elevação e outros gráficos de precisão. Tarefas de teste e validação e instruções (mineração de dados)

Consulte Também

Teste e validação (mineração de dados)