Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Há muitas vantagens em criar um modelo de mineração de dados com base em um cubo OLAP ou em outro armazenamento de dados multidimensional. Uma solução OLAP já contém grandes quantidades de dados bem organizados, limpos e formatados corretamente; no entanto, a complexidade dos dados é tal que é improvável que os usuários encontrem padrões significativos pela exploração ad hoc. A mineração de dados oferece a capacidade de descobrir novas correlações e fornecer insights acionáveis.
Este tópico descreve como criar uma estrutura de mineração OLAP com base em uma dimensão e medidas relacionadas em uma solução multidimensional existente.
Visão geral do processo de mineração de dados OLAP
Cenários para usar a mineração de dados em soluções OLAP
Dimensões de mineração de dados
Requisitos para estrutura e modelos de mineração OLAP
Se você estiver criando um modelo de mineração OLAP, sua fonte de dados já existirá, no banco de dados que foi usado para criar o cubo. Você não pode se conectar a um cubo remoto e criar objetos de mineração de dados; os objetos de cubo devem estar disponíveis na mesma solução que o banco de dados que a estrutura de mineração que você criará.
Se você não tiver os arquivos de projeto originais ou não quiser alterá-los, poderá usar a opção no Visual Studio, Importar do Servidor (Multidimensional ou Mineração de Dados), para obter uma cópia dos metadados e objetos de solução. Em seguida, você pode modificar o destino de implantação, editar fontes de dados e trabalhar com os objetos de cubo sem afetar os objetos existentes.
Para obter mais informações, consulte Importar um projeto de mineração de dados usando o Assistente de Importação do Analysis Services.
Visão geral do processo de mineração de dados OLAP
Inicie o Assistente de Mineração de Dados clicando com o botão direito do mouse no nó Estruturas de Mineração no Gerenciador de Soluções e selecionando Nova Estrutura de Mineração. O assistente orienta você pelas seguintes etapas para criar a estrutura para uma nova estrutura e modelo:
Selecione o Método de Definição: aqui você seleciona um tipo de fonte de dados e escolhe De cubo existente.
Observação
O cubo OLAP que você usa como fonte deve existir no mesmo banco de dados que a estrutura de mineração, conforme descrito acima. Além disso, você não pode usar um cubo criado pelo suplemento PowerPivot para Excel como uma fonte para mineração de dados.
Crie a Estrutura de Mineração de Dados: determine se você criará apenas uma estrutura ou uma estrutura com um modelo de mineração.
Você também deve escolher um algoritmo apropriado para analisar seus dados. Para obter diretrizes sobre qual algoritmo é melhor para determinadas tarefas, consulte HYPERLINK "ms-help://SQL111033/as_1devconc/html/ed1fc83b-b98c-437e-bf53-4ff001b92d64.htm" Algoritmos de mineração de dados (Analysis Services – Data Mining).
Selecione a Dimensão do Cubo de Origem: esta etapa é a mesma que selecionar uma fonte de dados. Você precisa escolher a dimensão única que contém os dados mais importantes usados no treinamento do modelo. Você pode adicionar dados de outras dimensões posteriormente ou filtrar a dimensão.
Selecione a Chave do Caso: na dimensão que você acabou de selecionar, escolha um atributo (coluna) para servir como o identificador exclusivo para os dados do caso.
Normalmente, uma coluna será pré-selecionada para você, mas você poderá alterar a coluna se, de fato, houver várias chaves.
Selecionando colunas de nível de caso: aqui você escolhe os atributos da dimensão selecionada e as medidas relacionadas, que são relevantes para sua análise. Esta etapa é equivalente à seleção de colunas de uma tabela.
O assistente inclui automaticamente, para sua revisão e seleção, quaisquer medidas que tenham sido criadas usando atributos da dimensão selecionada.
Por exemplo, se o cubo contiver uma medida que calcula o custo do frete com base na localização geográfica do cliente e você escolheu a dimensão Cliente como sua principal fonte de dados para modelagem, a medida será proposta como um candidato para adicionar ao modelo. Cuidado com a adição de muitas medidas que já são diretamente baseadas em atributos, pois já há uma relação implícita entre as colunas, conforme definido na fórmula de medida, e a força dessa correlação (esperada) pode obscurecer outras relações que você pode descobrir de outra forma.
Especifique o uso da coluna do modelo de mineração: para cada atributo ou medida que você adicionou à estrutura, especifique se o atributo deve ser usado para previsão ou usado como entrada. ** Se você não selecionar qualquer uma dessas opções, os dados serão processados, mas não serão usados para análise; no entanto, eles estarão disponíveis como dados de fundo caso você habilite o drillthrough posteriormente.
Adicionar tabelas aninhadas: clique para adicionar tabelas relacionadas. Na caixa de diálogo Selecionar uma Dimensão do Grupo de Medidas , você pode escolher uma única dimensão entre as dimensões relacionadas à dimensão atual.
Em seguida, use a caixa de diálogo Selecionar uma Chave de Tabela Aninhada para definir como a nova dimensão está relacionada à dimensão que contém os dados dos casos.
Use a caixa de diálogo Selecionar Colunas de Tabela Aninhadas para escolher os atributos e medidas da nova dimensão que você deseja usar na análise. Você também deve especificar se o atributo aninhado será usado para previsão.
Depois de adicionar todos os atributos aninhados necessários, retorne à página, especifique o uso da coluna do modelo de mineração e clique em Avançar.
Especificar conteúdo de colunas e tipo de dados: a essa altura, você adicionou todos os dados que serão usados para análise e deve especificar o tipo de dados e o tipo de conteúdo para cada atributo.
Em um modelo OLAP, você não tem a opção de detectar automaticamente tipos de dados, pois o tipo de dados já está definido pela solução multidimensional e não pode ser alterado. As chaves também são identificadas automaticamente. Para obter mais informações, consulte Tipos de Dados (Mineração de Dados).
O tipo de conteúdo escolhido para cada coluna que você usa no modelo informa ao algoritmo como os dados devem ser processados. Para obter mais informações, consulte Tipos de Conteúdo (Mineração de Dados).
Cortando o cubo de origem: aqui você pode definir filtros em um cubo para selecionar apenas um subconjunto de dados e treinar modelos mais direcionados.
Você filtra um cubo escolhendo a dimensão para filtrar, selecionando o nível da hierarquia que contém os critérios que deseja usar e digitando uma condição a ser usada como o filtro.
Criar Conjunto de Testes: nesta página, você pode informar ao assistente quantos dados devem ser reservados para uso no teste do modelo. Se os dados oferecerem suporte a vários modelos, é uma boa ideia criar um conjunto de dados de espera para que todos os modelos possam ser testados nos mesmos dados.
Para obter mais informações, consulte Teste e validação (mineração de dados).
Concluindo o Assistente: nesta página, você dá um nome à nova estrutura de mineração e ao modelo de mineração associado e salva a estrutura e o modelo.
Nesta página, você também pode definir as seguintes opções:
Permitir detalhamento
Criar dimensão do modelo de mineração
Criar cubo usando a dimensão do modelo de mineração
Para saber mais sobre essas opções, consulte a seção mais adiante neste tópico, Noções básicas sobre dimensões de mineração de dados e detalhamento.
Neste ponto, a estrutura de mineração e seu modelo são apenas metadados; você precisará processá-los para obter resultados.
Cenários para uso da mineração de dados com dados OLAP
Os cubos OLAP frequentemente contêm tantos membros e dimensões que pode ser difícil saber por onde começar com a mineração de dados. Para ajudar a identificar os padrões que os cubos contêm, normalmente você identifica uma única dimensão de interesse e, em seguida, começa a explorar padrões relacionados a essa dimensão. A tabela a seguir lista várias tarefas comuns de mineração de dados OLAP, descreve cenários de exemplo nos quais você pode aplicar cada tarefa e identifica o algoritmo de mineração de dados a ser usado para cada tarefa.
| Tarefa | Cenário de exemplo | Algoritmo |
|---|---|---|
| Agrupar membros em clusters | Segmente uma dimensão do cliente com base nas propriedades de membro do cliente, nos produtos que os clientes compram e na quantidade de dinheiro que os clientes gastam. | Algoritmo de agrupamento (clustering) da Microsoft |
| Localizar membros interessantes ou anormais | Identifique lojas interessantes ou anormais em uma dimensão de loja com base em vendas, lucro, localização da loja e tamanho da loja. | Algoritmo de Árvores de Decisão da Microsoft |
| Localizar células interessantes ou anormais | Identifique as vendas da loja que contrariam as tendências típicas ao longo do tempo. | Algoritmo de Série Temporal da Microsoft |
| Localizar correlações | Identifique os fatores relacionados ao tempo de inatividade do servidor, incluindo região, tipo de computador, sistema operacional ou data de compra. | Algoritmo Microsoft Naïve Bayes |
Dividindo um cubo vs. filtrando modelos
Cortar o cubo enquanto você está criando um modelo é como criar um filtro em um modelo de mineração relacional. Em um modelo relacional, o filtro na fonte de dados é definido como uma cláusula WHERE em uma instrução SQL; em um cubo, você usa o editor para criar instruções de filtro usando MDX.
Por exemplo, um cubo pode conter informações sobre compras de produtos em todo o mundo, mas para sua campanha de marketing, você deseja criar um modelo com base na análise de clientes mulheres com mais de 30 anos que residem no Reino Unido.
Nesse cenário, você criaria dois filtros:
Para o primeiro filtro, você escolheria a dimensão Geografia, escolheria a hierarquia para Região e, em seguida, usaria a lista Expressão de Filtro para escolher "Reino Unido" entre os valores possíveis.
Para o segundo filtro, você escolherá a dimensão Cliente, selecionará o atributo Gender e selecionará "Feminino" na lista de valores de atributo.
Depois que a estrutura de mineração for criada, você poderá modificar a definição dos dados do cubo e os critérios de filtro. Para obter mais informações, consulte Filtrar o Cubo de Origem para uma estrutura de mineração.
A guia Estrutura de Mineração e a guia Modelo de Mineração fornecem uma opção para adicionar um filtro a uma estrutura de mineração existente clicando em Definir uma Fatia de Cubo. A caixa de diálogo Slice Cube ajuda você a criar uma expressão de filtro MDX válida escolhendo um valor nas listas suspensas.
Aviso
Observe que a interface para criar e navegar cubos foi alterada no SQL Server 2014. Para obter mais informações, consulte Procurar dados e metadados no Cubo.
Você pode adicionar quantos filtros forem necessários ao cubo para retornar os dados necessários para o modelo de mineração. Você também pode definir fatias específicas em fatias individuais de cubo. Por exemplo, se sua estrutura contiver duas tabelas aninhadas baseadas em produtos, você poderá fatiar uma tabela em março de 2004 e a outra tabela em abril de 2004. O modelo resultante poderia então ser usado para prever compras feitas em abril com base nas compras feitas em março.
Usando tabelas aninhadas em um modelo de mineração OLAP
Ao usar o Assistente de Mineração de Dados para criar um modelo com base em dados de cubo, você pode adicionar tabelas aninhadas especificando os nomes das dimensões relacionadas e escolhendo os atributos ou medidas a serem adicionados ao modelo
Por exemplo, se a dimensão principal usada para dados de caso for Customer, você poderá adicionar como uma dimensão relacionada a dimensão Produtos, pois você espera que um cliente possa ter pedido vários produtos ao longo do tempo, e o cubo já vincula cada cliente aos muitos produtos por meio das tabelas de fatos do pedido.
Você adiciona tabelas aninhadas na página Especificar Uso de Coluna do Modelo de Mineração do assistente, clicando em Adicionar Tabelas Aninhadas. Uma caixa de diálogo é aberta que orienta você pelo processo de escolha de uma dimensão relacionada, bem como quaisquer medidas. O caso e as dimensões aninhadas devem estar relacionados por uma chave estrangeira, e as medidas devem usar um dos atributos que já estão incluídos nas tabelas do caso ou nas tabelas aninhadas. Infelizmente, essas restrições realmente não fazem muito para restringir o escopo, portanto, você deve ter cuidado para selecionar apenas os atributos que são úteis para modelagem.
Para cada atributo ou medida que você adicionar à tabela aninhada, você deve especificar se o atributo aninhado será usado para previsão ou não, selecionando Previsível ou Entrada na caixa de diálogo Selecionar Colunas de Tabela Aninhadas . Se você não selecionar nenhuma dessas opções, os dados serão adicionados à estrutura de mineração, mas não usados para análise.
Para cada atributo e medida, você também deve especificar se o atributo é discreto, discretizado ou contínuo. O assistente pré-selecionará um padrão com base no tipo de dados do atributo, mas talvez seja necessário alterá-los, dependendo dos requisitos do algoritmo. Se você escolher um tipo de conteúdo que não seja compatível com o algoritmo escolhido (por exemplo, você usa um tipo numérico contínuo com um modelo Naïve Bayes), não receberá uma mensagem de erro até tentar processar o modelo.
Quando terminar de definir essas opções, o assistente adicionará a tabela aninhada à tabela de casos. O nome padrão da tabela aninhada é o nome da dimensão aninhada, mas você pode renomear a tabela aninhada e suas colunas. Você pode repetir este processo para adicionar várias tabelas aninhadas à estrutura de mineração.
A capacidade de usar dados de tabela aninhados como esse é um recurso de mineração de dados do SQL Server que é particularmente eficiente e, em um cubo, há possibilidades quase ilimitadas de usar subconjuntos de dados relacionados.
Compreendendo Dimensões de Mineração de Dados e Exploração Detalhada
A opção , Permitir detalhamento, permite que você execute consultas nos dados de cubo subjacentes enquanto navega pelo modelo. Os dados não estão contidos na nova dimensão de mineração de dados, mas o banco de dados do Analysis Services pode usar as associações de dados para recuperar as informações do cubo de origem.
A opção , Criar dimensão de modelo de mineração, permite gerar uma nova dimensão dentro do cubo existente que contém os padrões descobertos pelo algoritmo. A hierarquia dentro da nova dimensão é determinada em grande parte pelo tipo de modelo. Por exemplo, a representação de um modelo de clustering é bastante simples, com o nó (Todos) na parte superior da hierarquia e cada cluster no próximo nível. Por outro lado, a dimensão criada para um modelo de árvore de decisão pode ter uma hierarquia muito profunda, representando a ramificação da árvore.
A opção , Criar cubo usando a dimensão do modelo de mineração, permite exportar a nova dimensão de mineração de dados para um novo cubo. Todos os objetos necessários para detalhamento na dimensão de mineração de dados serão incluídos automaticamente.
Aviso
Somente esses tipos de modelo dão suporte à criação de dimensões de mineração de dados: modelos baseados no algoritmo Clustering da Microsoft, no algoritmo Árvores de Decisão da Microsoft ou no algoritmo Da Associação da Microsoft.
Consulte Também
Algoritmos de mineração de dados (Analysis Services – Mineração de Dados)
Colunas da estrutura de mineração
Colunas de modelo de mineração
Propriedades do modelo de mineração
Propriedades para estrutura de mineração e colunas de estrutura