Métodos de discretização (mineração de dados)

Alguns algoritmos usados para criar modelos de mineração de dados no SQL Server Analysis Services exigem tipos de conteúdo específicos para funcionar corretamente. Por exemplo, o algoritmo Microsoft Naive Bayes não pode usar colunas contínuas como entrada e não pode prever valores contínuos. Além disso, algumas colunas podem conter tantos valores que o algoritmo não pode identificar facilmente padrões interessantes nos dados dos quais criar um modelo.

Nesses casos, você pode discretizar os dados nas colunas para habilitar o uso dos algoritmos para produzir um modelo de mineração. A discretização é o processo de colocar valores em buckets para que haja um número limitado de estados possíveis. Os buckets em si são tratados como valores ordenados e discretos. Você pode diferenciar colunas numéricas e de cadeia de caracteres.

Há vários métodos que você pode usar para diferenciar dados. Se a solução de mineração de dados usar dados relacionais, você poderá controlar o número de buckets a serem usados para agrupar dados definindo o valor da DiscretizationBucketCount propriedade. O número padrão de buckets é 5.

Se sua solução de mineração de dados usar dados de um cubo OLAP (Processamento Analítico Online), o algoritmo de mineração de dados calculará automaticamente o número de buckets a serem gerados usando a equação a seguir, em que n é o número de valores distintos de dados na coluna:

Number of Buckets = sqrt(n)

Se você não quiser que o Analysis Services calcule o número de buckets, use a DiscretizationBucketCount propriedade para especificar manualmente o número de buckets.

A tabela a seguir descreve os métodos que você pode usar para diferenciar dados no Analysis Services.

Método de discretização	Descrição
`AUTOMATIC`	O Analysis Services determina qual método de discretização usar.
`CLUSTERS`	O algoritmo divide os dados em grupos amostrando os dados de treinamento, inicializando para vários pontos aleatórios e, em seguida, executando várias iterações do algoritmo de Clustering da Microsoft usando o método de clustering EM (Maximização de Expectativa). O `CLUSTERS` método é útil porque funciona em qualquer curva de distribuição. No entanto, isso requer mais tempo de processamento do que os outros métodos de discretização. Esse método só pode ser usado com colunas numéricas.
`EQUAL_AREAS`	O algoritmo divide os dados em grupos que contêm um número igual de valores. Esse método é melhor usado para curvas de distribuição normais, mas não funciona bem se a distribuição inclui um grande número de valores que ocorrem em um grupo estreito nos dados contínuos. Por exemplo, se metade dos itens tiver um custo de 0, metade dos dados ocorrerá em um único ponto na curva. Nessa distribuição, esse método divide os dados em um esforço para estabelecer a mesma discretização em várias áreas. Isso produz uma representação imprecisa dos dados.

Observações

Você pode usar o EQUAL_AREAS método para diferenciar cadeias de caracteres.
O CLUSTERS método usa uma amostra aleatória de 1000 registros para diferenciar dados. Use o EQUAL_AREAS método se você não quiser que o algoritmo teste dados.
O tutorial do modelo de mineração de rede neural fornece um exemplo de como a discretização pode ser personalizada. Para obter mais informações, consulte a Lição 5: Criando modelos de regressão logística e de rede neural (tutorial de mineração de dados intermediários).

Consulte Também

Tipos de conteúdo (mineração de dados)
Tipos de conteúdo (DMX)
Algoritmos de mineração de dados (Analysis Services – Mineração de Dados)
Estruturas de mineração (Analysis Services – Mineração de dados)
Tipos de dados (mineração de dados)
Colunas da estrutura de mineração
Distribuições de coluna (mineração de dados)

Last updated on 2017-03-06

Compartilhar via

Métodos de discretização (mineração de dados)

Observações

Consulte Também

Recursos adicionais