Seleção de Características (Mineração de Dados)

A seleção de recursos é um termo comumente usado na mineração de dados para descrever as ferramentas e técnicas disponíveis para reduzir as entradas a um tamanho gerenciável para processamento e análise. A seleção de recursos implica não apenas a redução de cardinalidade, o que significa impor um corte arbitrário ou predefinido sobre o número de atributos que podem ser considerados ao criar um modelo, mas também a escolha de atributos, o que significa que o analista ou a ferramenta de modelagem seleciona ou descarta ativamente atributos com base em sua utilidade para análise.

A capacidade de aplicar a seleção de recursos é fundamental para uma análise eficaz, pois os conjuntos de dados frequentemente contêm muito mais informações do que o necessário para criar o modelo. Por exemplo, um conjunto de dados pode conter 500 colunas que descrevem as características dos clientes, mas se os dados em algumas das colunas forem muito esparsos, você obterá muito pouco benefício ao adicioná-los ao modelo. Se você mantiver as colunas desnecessárias durante a criação do modelo, mais CPU e memória serão necessárias durante o processo de treinamento e mais espaço de armazenamento será necessário para o modelo concluído.

Mesmo que os recursos não sejam um problema, você normalmente deseja remover colunas desnecessárias porque elas podem degradar a qualidade dos padrões descobertos, pelos seguintes motivos:

Algumas colunas são barulhentas ou redundantes. Esse ruído torna mais difícil descobrir padrões significativos dos dados;
Para descobrir padrões de qualidade, a maioria dos algoritmos de mineração de dados exige um conjunto de dados de treinamento muito maior no conjunto de dados de alta dimensão. Mas os dados de treinamento são muito pequenos em alguns aplicativos de mineração de dados.

Se apenas 50 das 500 colunas na fonte de dados tiverem informações úteis na criação de um modelo, você poderá simplesmente deixá-las fora do modelo ou usar técnicas de seleção de recursos para descobrir automaticamente os melhores recursos e excluir valores que são estatisticamente insignificantes. A seleção de recursos ajuda a resolver os problemas gêmeos de ter uma quantidade excessiva de dados com pouco valor ou uma quantidade insuficiente de dados de alto valor.

Seleção de características na mineração de dados do Analysis Services

Normalmente, a seleção de recursos é executada automaticamente no Analysis Services e cada algoritmo tem um conjunto de técnicas padrão para aplicar de forma inteligente a redução de recursos. A seleção de recursos é sempre executada antes do modelo ser treinado, para escolher automaticamente os atributos em um conjunto de dados que provavelmente serão usados no modelo. No entanto, você também pode definir manualmente parâmetros para influenciar o comportamento de seleção de recursos.

Em geral, a seleção de recursos funciona calculando uma pontuação para cada atributo e selecionando apenas os atributos que têm as melhores pontuações. Você também pode ajustar o limite para as pontuações superiores. O Analysis Services fornece vários métodos para calcular essas pontuações e o método exato aplicado em qualquer modelo depende desses fatores:

O algoritmo usado em seu modelo
O tipo de dados do atributo
Todos os parâmetros que você pode ter definido em seu modelo

A seleção de recursos é aplicada a entradas, atributos previsíveis ou a estados em uma coluna. Quando a pontuação para a seleção de recursos é concluída, somente os atributos e estados que o algoritmo seleciona são incluídos no processo de criação de modelo e podem ser usados para previsão. Se você escolher um atributo previsível que não atenda ao limite de seleção de recursos, o atributo ainda poderá ser usado para previsão, mas as previsões serão baseadas apenas nas estatísticas globais que existem no modelo.

Observação

A seleção de características afeta apenas as colunas usadas no modelo e não tem efeito sobre o armazenamento da estrutura de dados de mineração. As colunas que você deixa de fora do modelo de mineração ainda estão disponíveis na estrutura e os dados nas colunas da estrutura de mineração serão armazenados em cache.

Definição de métodos de seleção de atributos

Há muitas maneiras de implementar a seleção de recursos, dependendo do tipo de dados com o qual você está trabalhando e do algoritmo que você escolhe para análise. O SQL Server Analysis Services fornece vários métodos populares e bem estabelecidos para atributos de pontuação. O método aplicado em qualquer algoritmo ou conjunto de dados depende dos tipos de dados e do uso da coluna.

A pontuação de interessância é usada para classificar e ordenar atributos em colunas que contêm dados numéricos contínuos não binários.

A entropia de Shannon e duas pontuações bayesianas estão disponíveis para colunas que contêm dados discretos e discretizados. No entanto, se o modelo contiver colunas contínuas, a pontuação de interessante será usada para avaliar todas as colunas de entrada, para garantir a consistência.

A seção a seguir descreve cada método de seleção de recursos.

Pontuação de interessante

Um recurso é interessante se ele informa algumas informações úteis. Como a definição do que é útil varia dependendo do cenário, o setor de mineração de dados desenvolveu várias maneiras de medir a interessanteidade. Por exemplo, a novidade pode ser interessante na detecção de exceção, mas a capacidade de discriminar entre itens intimamente relacionados ou discriminar peso pode ser mais interessante para classificação.

A medida de interessante que é usada no SQL Server Analysis Services é baseada em entropia, o que significa que os atributos com distribuições aleatórias têm maior entropia e menor ganho de informações; portanto, esses atributos são menos interessantes. A entropia para qualquer atributo específico é comparada com a entropia de todos os outros atributos, da seguinte maneira:

Interestingness(Attribute) = - (m - Entropy(Attribute)) * (m - Entropy(Attribute))

Entropia central, ou "m", significa a entropia de todo o conjunto de características. Ao subtrair a entropia do atributo de destino da entropia central, você pode avaliar quantas informações o atributo fornece.

Essa pontuação é usada por padrão sempre que a coluna contém dados numéricos contínuos não binários.

Entropia de Shannon

A entropia de Shannon mede a incerteza de uma variável aleatória para um resultado específico. Por exemplo, a entropia de um lançamento de moeda pode ser representada como uma função da probabilidade de sair cara.

O Analysis Services usa a seguinte fórmula para calcular a entropia de Shannon:

H(X) = -∑ P(xi) log(P(xi))

Esse método de pontuação está disponível para atributos discretos e discretizados.

Bayesian com K2 Prior

O Analysis Services fornece duas pontuações de seleção de recursos baseadas em redes bayesianas. Uma rede bayesiana é um grafo direcionado ou a cíclico de estados e transições entre estados, o que significa que alguns estados estão sempre antes do estado atual, alguns estados são posteriores e o grafo não se repete nem faz loop. Por definição, as redes bayesianas permitem o uso de conhecimento prévio. No entanto, a questão de quais estados anteriores usar no cálculo de probabilidades de estados posteriores é importante para design, desempenho e precisão do algoritmo.

O algoritmo K2 para aprender com uma rede bayesiana foi desenvolvido por Cooper e Herskovits e geralmente é usado na mineração de dados. Ele é escalonável e pode analisar várias variáveis, mas requer ordenação em variáveis usadas como entrada. Para obter mais informações, consulte Learning Bayesian Networks by Chickering, Geiger e Heckerman.

Esse método de pontuação está disponível para atributos discretos e discretizados.

Bayesian Dirichlet Equivalente com Prior Uniforme

A pontuação Dirichlet Equivalente Bayesiana (BDE) também utiliza a análise bayesiana para avaliar uma rede com base em um conjunto de dados. O método de pontuação BDE foi desenvolvido por Heckerman e baseia-se na métrica BD desenvolvida por Cooper e Herskovits. A distribuição de Dirichlet é uma distribuição multinomial que descreve a probabilidade condicional de cada variável na rede e tem muitas propriedades úteis para aprendizado.

O método Bayesian Dirichlet Equivalent with Uniform Prior (BDEU) pressupõe um caso especial da distribuição de Dirichlet, no qual uma constante matemática é usada para criar uma distribuição fixa ou uniforme de estados anteriores. A pontuação do BDE também pressupõe equivalência de probabilidade, o que significa que os dados não podem ser esperados para discriminar estruturas equivalentes. Em outras palavras, se a pontuação de If A Then B for a mesma que a pontuação de If B Then A, as estruturas não poderão ser distinguidas com base nos dados e a causalidade não poderá ser inferida.

Para obter mais informações sobre redes bayesianas e a implementação desses métodos de pontuação, consulte Learning Bayesian Networks.

Métodos de seleção de características usados pelos algoritmos do Analysis Services

A tabela a seguir lista os algoritmos que dão suporte à seleção de recursos, aos métodos de seleção de recursos usados pelo algoritmo e aos parâmetros definidos para controlar o comportamento de seleção de recursos:

Algoritmo	Método de análise	Comentários
Naive Bayes	Entropia de Shannon Bayesian com K2 Prior Dirichlet bayesiano com prévio uniforme (padrão)	O algoritmo Microsoft Naïve Bayes aceita apenas atributos discretos ou discretizados; portanto, ele não pode usar a pontuação de interessância. Para obter mais informações sobre esse algoritmo, consulte Referência técnica do algoritmo Microsoft Naive Bayes.
Árvores de decisão	Pontuação de interessante Entropia de Shannon Bayesian com K2 Prior Dirichlet bayesiano com prévio uniforme (padrão)	Se qualquer coluna contiver valores contínuos não binários, a pontuação de interessante será usada para todas as colunas, para garantir a consistência. Caso contrário, o método de seleção de recursos padrão é usado ou o método especificado quando você criou o modelo. Para obter mais informações sobre esse algoritmo, consulte Referência técnica do algoritmo Árvores de Decisão da Microsoft.
Rede neural	Pontuação de interessante Entropia de Shannon Bayesian com K2 Prior Dirichlet bayesiano com prévio uniforme (padrão)	O algoritmo Redes Neurais da Microsoft pode usar métodos bayesianos e baseados em entropia, desde que os dados contenham colunas contínuas. Para obter mais informações sobre esse algoritmo, consulte a Referência Técnica do Algoritmo de Rede Neural da Microsoft.
Regressão logística	Pontuação de interessante Entropia de Shannon Bayesian com K2 Prior Dirichlet bayesiano com prévio uniforme (padrão)	Embora o algoritmo regressão logística da Microsoft seja baseado no algoritmo rede neural da Microsoft, você não pode personalizar modelos de regressão logística para controlar o comportamento de seleção de recursos; portanto, a seleção de recursos sempre é padrão para o método mais apropriado para o atributo. Se todos os atributos forem discretos ou discretizados, o padrão será BDEU. Para obter mais informações sobre esse algoritmo, consulte a Referência Técnica do Algoritmo de Regressão Logística da Microsoft.
Agrupamento	Pontuação de interessante	O algoritmo Clustering da Microsoft pode usar dados discretos ou discretizados. No entanto, como a pontuação de cada atributo é calculada como uma distância e é representada como um número contínuo, deve-se usar a pontuação de interesse. Para obter mais informações sobre esse algoritmo, consulte a Referência Técnica do Algoritmo de Clustering da Microsoft.
Regressão linear	Pontuação de interessante	O algoritmo Regressão Linear da Microsoft só pode usar a pontuação de interesse, já que só suporta colunas contínuas. Para obter mais informações sobre esse algoritmo, consulte a Referência Técnica do Algoritmo de Regressão Linear da Microsoft.
Regras da associação Agrupamento de sequências	Não usado	A seleção de recursos não é invocada com esses algoritmos. No entanto, você pode controlar o comportamento do algoritmo e reduzir o tamanho dos dados de entrada, se necessário, definindo o valor dos parâmetros MINIMUM_SUPPORT e MINIMUM_PROBABILIITY. Para obter mais informações, consulte a Referência Técnica do Algoritmo de Associação da Microsoft e a Referência Técnica do Algoritmo de Agrupamento de Sequências da Microsoft.
Série temporal	Não usado	A seleção de recursos não se aplica a modelos de série temporal. Para obter mais informações sobre esse algoritmo, consulte a Referência Técnica do Algoritmo de Série Temporal da Microsoft.

Parâmetros de seleção de variáveis

Em algoritmos que dão suporte à seleção de recursos, você pode controlar quando a seleção de recursos é ativada usando os parâmetros a seguir. Cada algoritmo tem um valor padrão para o número de entradas permitidas, mas você pode substituir esse padrão e especificar o número de atributos. Esta seção lista os parâmetros fornecidos para gerenciar a seleção de recursos.

ATRIBUTOS_MÁXIMOS_DE_ENTRADA

Se um modelo contiver mais colunas do que o número especificado no parâmetro MAXIMUM_INPUT_ATTRIBUTES , o algoritmo ignorará todas as colunas calculadas como não interessantes.

ATRIBUTOS_DE_SAÍDA_MÁXIMA

Da mesma forma, se um modelo contiver colunas mais previsíveis do que o número especificado no parâmetro MAXIMUM_OUTPUT_ATTRIBUTES , o algoritmo ignorará todas as colunas que calcula serem desinteressantes.

ESTADOS_MÁXIMOS

Se um modelo contiver mais casos do que especificado no parâmetro MAXIMUM_STATES , os estados menos populares serão agrupados e tratados como ausentes. Se qualquer um desses parâmetros for definido como 0, a seleção de recursos será desativada, afetando o tempo de processamento e o desempenho.

Além desses métodos de seleção de recursos, você pode melhorar a capacidade do algoritmo de identificar ou promover atributos significativos definindo sinalizadores de modelagem no modelo ou definindo sinalizadores de distribuição na estrutura. Para obter mais informações sobre esses conceitos, consulte Sinalizadores de Modelagem (Mineração de Dados) e Distribuições de Colunas (Mineração de Dados).

Consulte Também

Personalizar modelos e estrutura de mineração

Last updated on 2017-03-06

Compartilhar via