Compartilhar via


Algoritmo de Árvores de Decisão da Microsoft

O algoritmo Árvores de Decisão da Microsoft é um algoritmo de classificação e regressão fornecido pelo Microsoft SQL Server Analysis Services para uso na modelagem preditiva de atributos discretos e contínuos.

Para atributos discretos, o algoritmo faz previsões com base nas relações entre colunas de entrada em um conjunto de dados. Ele usa os valores, conhecidos como estados, dessas colunas para prever os estados de uma coluna que você designa como previsível. Especificamente, o algoritmo identifica as colunas de entrada correlacionadas com a coluna previsível. Por exemplo, em um cenário para prever quais clientes provavelmente comprarão uma bicicleta, se nove em cada dez clientes mais jovens comprarem uma bicicleta, mas apenas dois em cada dez clientes mais velhos fizerem isso, o algoritmo infere que a idade é um bom preditor da compra de bicicletas. A árvore de decisão faz previsões com base nessa tendência para um resultado específico.

Para atributos contínuos, o algoritmo usa regressão linear para determinar onde uma árvore de decisão é dividida.

Se mais de uma coluna for definida como previsível ou se os dados de entrada contiverem uma tabela aninhada definida como previsível, o algoritmo criará uma árvore de decisão separada para cada coluna previsível

Exemplo

O departamento de marketing da empresa Adventure Works Cycles deseja identificar as características dos clientes anteriores que podem indicar se esses clientes provavelmente comprarão um produto no futuro. O banco de dados AdventureWorks2012 armazena informações demográficas que descrevem clientes anteriores. Usando o algoritmo Árvores de Decisão da Microsoft para analisar essas informações, o departamento de marketing pode criar um modelo que prevê se um cliente específico comprará produtos, com base nos estados de colunas conhecidas sobre esse cliente, como dados demográficos ou padrões de compra anteriores.

Como o algoritmo funciona

O algoritmo Árvores de Decisão da Microsoft cria um modelo de mineração de dados criando uma série de divisões na árvore. Essas divisões são representadas como nós. O algoritmo adiciona um nó ao modelo sempre que uma coluna de entrada é encontrada significativamente correlacionada com a coluna previsível. A maneira como o algoritmo determina uma divisão é diferente dependendo se ele está prevendo uma coluna contínua ou uma coluna discreta.

O algoritmo Árvores de Decisão da Microsoft usa a seleção de recursos para orientar a seleção dos atributos mais úteis. A seleção de recursos é usada por todos os algoritmos de mineração de dados do Analysis Services para melhorar o desempenho e a qualidade da análise. A seleção de recursos é importante para impedir que atributos sem importância usem o tempo do processador. Se você usar muitos atributos de entrada ou previsíveis ao projetar um modelo de mineração de dados, o modelo poderá levar muito tempo para ser processado ou até mesmo ficar sem memória. Os métodos usados para determinar se a árvore deve ser dividida incluem métricas padrão do setor para entropia e redes bayesianas*.* Para obter mais informações sobre os métodos usados para selecionar atributos significativos e, em seguida, pontuar e classificar os atributos, consulte Seleção de Recursos (Mineração de Dados).

Um problema comum em modelos de mineração de dados é que o modelo torna-se muito sensível a pequenas diferenças nos dados de treinamento, nesse caso, é considerado sobreajustado ou sobretreinado. Um modelo sobreajustado não pode ser generalizado para outros conjuntos de dados. Para evitar a sobrecarga em qualquer conjunto específico de dados, o algoritmo árvores de decisão da Microsoft usa técnicas para controlar o crescimento da árvore. Para obter uma explicação mais detalhada de como o algoritmo Árvores de Decisão da Microsoft funciona, consulte a Referência técnica do algoritmo Árvores de Decisão da Microsoft.

Prevendo colunas discretas

A maneira como o algoritmo Árvores de Decisão da Microsoft cria uma árvore para uma coluna previsível discreta pode ser demonstrada usando um histograma. O diagrama a seguir mostra um histograma que plota uma coluna previsível, Compradores de Bicicleta, em relação a uma coluna de entrada, Age. O histograma mostra que a idade de uma pessoa ajuda a distinguir se essa pessoa comprará uma bicicleta.

Histograma do algoritmo Árvores de Decisão da Microsoft

A correlação mostrada no diagrama faria com que o algoritmo Árvores de Decisão da Microsoft criasse um novo nó no modelo.

Nó de árvore de decisão

À medida que o algoritmo adiciona novos nós a um modelo, uma estrutura de árvore é formada. O nó superior da árvore descreve a divisão da coluna previsível para a população geral de clientes. À medida que o modelo continua a crescer, o algoritmo considera todas as colunas.

Prever colunas contínuas

Quando o algoritmo Árvores de Decisão da Microsoft cria uma árvore com base em uma coluna previsível contínua, cada nó contém uma fórmula de regressão. Uma divisão ocorre em um ponto de não linearidade na fórmula de regressão. Por exemplo, considere o diagrama a seguir.

Várias linhas de regressão múltipla mostrando não linearidade

O diagrama contém dados que podem ser modelados usando uma única linha ou usando duas linhas conectadas. No entanto, uma única linha faria um trabalho ruim de representar os dados. Em vez disso, se você usar duas linhas, o modelo fará um trabalho muito melhor de aproximação dos dados. O ponto em que as duas linhas se reúnem é o ponto de não linearidade e é o ponto em que um nó em um modelo de árvore de decisão se dividiria. Por exemplo, o nó que corresponde ao ponto de não-linearidade no gráfico anterior pode ser representado pelo diagrama a seguir. As duas equações representam as equações de regressão para as duas linhas.

Equação que representa um ponto de não-linearidade

Dados necessários para modelos de árvore de decisão

Ao preparar dados para uso em um modelo de árvores de decisão, você deve entender os requisitos para o algoritmo específico, incluindo a quantidade de dados necessária e como os dados são usados.

Os requisitos para um modelo de árvores de decisão são os seguintes:

  • Uma única coluna de chave Cada modelo deve conter uma coluna numérica ou de texto que identifique exclusivamente cada registro. Chaves compostas não são permitidas.

  • Uma coluna previsível Requer pelo menos uma coluna previsível. Você pode incluir vários atributos previsíveis em um modelo e os atributos previsíveis podem ser de tipos diferentes, numéricos ou discretos. No entanto, aumentar o número de atributos previsíveis pode aumentar o tempo de processamento.

  • Colunas de entrada Requer colunas de entrada, que podem ser discretas ou contínuas. Aumentar o número de atributos de entrada afeta o tempo de processamento.

Para obter informações mais detalhadas sobre os tipos de conteúdo e os tipos de dados com suporte para modelos de árvore de decisão, consulte a seção Requisitos da Referência Técnica do Algoritmo de Árvores de Decisão da Microsoft.

Exibindo um modelo de árvores de decisão

Para explorar o modelo, você pode usar o Microsoft Tree Viewer. Se o modelo gerar várias árvores, você poderá selecionar uma árvore e o visualizador mostrará um detalhamento de como os casos são categorizados para cada atributo previsível. Você também pode exibir a interação das árvores usando o visualizador de rede de dependência. Para obter mais informações, consulte Procurar um modelo usando o Microsoft Tree Viewer.

Se você quiser saber mais detalhes sobre qualquer branch ou nó na árvore, também poderá procurar o modelo usando o Visualizador de Árvore de Conteúdo Genérico da Microsoft. O conteúdo armazenado para o modelo inclui a distribuição de todos os valores em cada nó, probabilidades em cada nível da árvore e fórmulas de regressão para atributos contínuos. Para obter mais informações, consulte o Conteúdo do Modelo de Mineração para Modelos de Árvore de Decisão (Analysis Services – Mineração de Dados).

Criando previsões

Depois que o modelo for processado, os resultados serão armazenados como um conjunto de padrões e estatísticas, que você pode usar para explorar relações ou fazer previsões.

Para obter exemplos de consultas a serem usadas com um modelo de árvores de decisão, consulte Exemplos de consulta de modelo de árvores de decisão.

Para obter informações gerais sobre como criar consultas em modelos de mineração, consulte Consultas de mineração de dados.

Observações

  • Dá suporte ao uso da PMML (Predictive Model Markup Language) para criar modelos de mineração.

  • Permite detalhamento por meio de drill-through.

  • Dá suporte ao uso de modelos de mineração OLAP e à criação de dimensões de mineração de dados.

Consulte Também

Algoritmos de mineração de dados (Analysis Services – Mineração de dados)Microsoft Decision Trees Algorithm Technical ReferenceDecision Trees Model Query ExamplesMining Model Content for Decision Tree Models (Analysis Services – Data Mining)