Compartilhar via


Projetos de mineração de dados

Um projeto de mineração de dados faz parte de uma solução do Analysis Services. Durante o processo de design, os objetos criados neste projeto estão disponíveis para teste e consulta como parte de um banco de dados de workspace. Quando quiser que os usuários possam consultar ou procurar os objetos no projeto, você deve implantar o projeto em uma instância do Analysis Services em execução no modo multidimensional.

Este tópico fornece as informações básicas necessárias para entender e criar projetos de mineração de dados.

Criando projetos de mineração de dados

No SSDT (SQL Server Data Tools), você cria projetos de mineração de dados usando o modelo, o OLAP e o Projeto de Mineração de Dados. Você também pode criar projetos de mineração de dados programaticamente usando AMO. Objetos individuais de mineração de dados podem ser scriptados usando a linguagem de script Analysis Services Scripting Language (ASSL). Para obter mais informações, consulte Acesso a dados de modelo multidimensional (Analysis Services – Dados Multidimensionais).

Se você criar um projeto de mineração de dados em uma solução existente, por padrão, os objetos de mineração de dados serão implantados em um banco de dados do Analysis Services com o mesmo nome do arquivo de solução. Você pode alterar esse nome e o servidor de destino usando a caixa de diálogo Propriedades do Projeto . Para obter mais informações, consulte Configure Analysis Services Project Properties (SSDT).

Aviso

Para compilar e implantar seu projeto com êxito, você deve ter acesso a uma instância do Analysis Services em execução no modo OLAP/Mineração de Dados. Você não pode desenvolver ou implantar soluções de mineração de dados em uma instância do Analysis Services que dá suporte a modelos tabulares, nem pode usar dados diretamente de uma pasta de trabalho PowerPivot ou de um modelo tabular que usa o armazenamento de dados na memória. Para determinar se a instância do Analysis Services que você tem pode dar suporte à mineração de dados, consulte Determine the Server Mode of an Analysis Services Instance.

Em cada projeto de mineração de dados criado, você seguirá estas etapas:

  1. Escolha uma fonte de dados, como um cubo, um banco de dados ou até mesmo o Excel ou arquivos de texto, que contém os dados brutos que você usará para criar modelos.

  2. Defina um subconjunto dos dados na fonte de dados a ser usado para análise e salve-o como uma exibição de fonte de dados.

  3. Defina uma estrutura de mineração para dar suporte à modelagem.

  4. Adicione modelos de mineração à estrutura de mineração escolhendo um algoritmo e especificando como o algoritmo lidará com os dados.

  5. Treine os modelos populando-os com os dados selecionados ou um subconjunto filtrado dos dados.

  6. Explore, teste e recompile modelos.

Quando o projeto for concluído, você poderá implantá-lo para que os usuários naveguem ou consultem ou forneçam acesso programático aos modelos de mineração em um aplicativo, para dar suporte a previsões e análises.

Objetos em projetos de mineração de dados

Todos os projetos de mineração de dados contêm os quatro tipos de objetos a seguir. Você pode ter vários objetos de todos os tipos.

  • Fontes de dados

  • Visões da fonte de dados

  • Estruturas de mineração

  • Modelos de mineração

Por exemplo, um único projeto de mineração de dados pode conter uma referência a várias fontes de dados, com cada fonte de dados dando suporte a várias exibições de fonte de dados. Por sua vez, cada exibição de fonte de dados pode dar suporte a várias estruturas de mineração, cada uma com muitos modelos de mineração relacionados.

Além disso, seu projeto pode incluir algoritmos de plug-in, assemblies personalizados ou procedimentos armazenados personalizados; no entanto, esses objetos não são descritos aqui. Para obter mais informações, consulte o Guia do Desenvolvedor (Analysis Services).

Fontes de dados

A fonte de dados define as informações de cadeia de conexão e autenticação que o servidor do Analysis Services usará para se conectar à fonte de dados. A fonte de dados pode conter várias tabelas ou exibições; ele pode ser tão simples quanto uma única pasta de trabalho ou arquivo de texto do Excel, ou tão complexo quanto um banco de dados OLAP (Processamento Analítico Online) ou um banco de dados relacional grande.

Um único projeto de mineração de dados pode fazer referência a várias fontes de dados. Embora um modelo de mineração possa usar apenas uma fonte de dados por vez, o projeto pode ter vários modelos se baseando em diferentes fontes de dados.

O Analysis Services dá suporte a dados de muitos provedores externos, e o SQL Server Data Mining pode usar dados relacionais e de cubo como uma fonte de dados. No entanto, se você desenvolver ambos os tipos de modelos de projetos com base em fontes relacionais e modelos baseados em cubos OLAP, talvez você queira desenvolvê-los e gerenciá-los em projetos separados.

  • Normalmente, os modelos baseados em um cubo OLAP devem ser desenvolvidos dentro da solução de design OLAP. Um motivo é que os modelos baseados em um cubo devem processar o cubo para atualizar os dados. Em geral, você deve usar dados de cubo somente quando esse for o principal meio de armazenamento e acesso de dados ou quando você precisar das agregações, dimensões e atributos criados pelo projeto multidimensional.

  • Se o projeto usar apenas dados relacionais, você deverá criar os modelos relacionais em um projeto separado, para que você não reprocesse desnecessariamente outros objetos. Em muitos casos, o banco de dados de estágio ou o data warehouse usado para dar suporte à criação de cubos já contém as visões necessárias para realizar a mineração de dados, e essas visões podem ser usadas para mineração de dados ao invés de utilizar as agregações e dimensões do cubo.

  • Você não pode usar dados na memória ou PowerPivot diretamente para criar modelos de mineração de dados.

A fonte de dados identifica apenas o servidor ou o provedor e o tipo geral de dados. Se você precisar alterar a formatação e as agregações de dados, use o objeto de exibição da fonte de dados.

Para controlar a maneira como os dados da fonte de dados são tratados, você pode adicionar colunas ou cálculos derivados, modificar agregações ou renomear colunas nos dados na exibição da fonte de dados. (Você também pode trabalhar com dados em fases posteriores, modificando colunas de estrutura de mineração ou usando sinalizadores e filtros de modelagem no nível da coluna do modelo de mineração.)

Se a limpeza de dados for necessária ou os dados no data warehouse precisarem ser modificados para criar variáveis adicionais, alterar tipos de dados ou criar agregação alternativa, talvez seja necessário criar tipos de projeto adicionais para dar suporte à mineração de dados. Para obter mais informações sobre esses projetos relacionados, consulte Projetos Relacionados para Soluções de Mineração de Dados.

Exibições da fonte de dados

Depois de definir essa conexão com uma fonte de dados, você criará uma exibição que identifica os dados específicos relevantes para seu modelo.

A exibição da fonte de dados também permite personalizar a maneira como os dados na fonte de dados são fornecidos para o modelo de mineração. Você pode modificar a estrutura dos dados para torná-los mais relevantes para seu projeto ou escolher apenas determinados tipos de dados.

Por exemplo, usando o editor de Exibição da Fonte de Dados, você pode:

  • Crie colunas derivadas, como dateparts, substrings etc.

  • Agregar valores usando instruções Transact-SQL, como GROUP BY

  • Restringir dados temporariamente ou dados amostrais

Para obter mais informações sobre como você pode modificar dados em uma exibição de fonte de dados, consulte Exibições da Fonte de Dados em Modelos Multidimensionais.

Aviso

Se você quiser filtrar os dados, poderá fazê-lo na exibição da fonte de dados, mas também poderá criar filtros nos dados no nível do modelo de mineração. Como a definição de filtro é armazenada com o modelo de mineração, o uso de filtros de modelo facilita a determinação dos dados usados para treinar o modelo. Além disso, você pode criar vários modelos relacionados, com critérios de filtro diferentes. Para obter mais informações, consulte Filtros para Modelos de Mineração (Analysis Services – Mineração de Dados).

Observe que a exibição da fonte de dados criada pode conter dados adicionais que não são usados diretamente para análise. Por exemplo, você pode adicionar à exibição de origem de dados informações que são usadas para testes, previsões ou para detalhamento. Para obter mais informações sobre esses usos, consulte Teste e Validação (Mineração de Dados) e Drillthrough.

Estruturas de mineração

Depois de criar a fonte de dados e a exibição da fonte de dados, você deve selecionar as colunas de dados mais relevantes para seu problema de negócios, definindo estruturas de mineração dentro do projeto. Uma estrutura de mineração informa ao projeto quais colunas de dados da visão da fonte de dados realmente devam ser usadas na modelagem, treinamento e teste.

Para adicionar uma nova estrutura de mineração, inicie o Assistente de Mineração de Dados. O assistente define automaticamente uma estrutura de mineração, orienta você pelo processo de escolha dos dados e, opcionalmente, permite adicionar um modelo de mineração inicial à estrutura. Dentro da estrutura de mineração, você escolhe tabelas e colunas na exibição da fonte de dados ou em um cubo OLAP e define relações entre tabelas, se os dados incluirem tabelas aninhadas.

Sua escolha de dados será muito diferente no Assistente de Mineração de Dados, dependendo de você usar fontes de dados OLAP (processamento analítico relacional ou online).

  • Quando você escolhe dados de uma fonte de dados relacional, configurar uma estrutura de mineração é fácil: você escolhe colunas dos dados na visualização da fonte de dados e define personalizações adicionais, como aliases, ou define como os valores na coluna devem ser agrupados ou organizados em categorias. Para obter mais informações, consulte Criar uma estrutura de mineração relacional.

  • Quando você usa dados de um cubo OLAP, a estrutura de mineração deve estar no mesmo banco de dados que a solução OLAP. Para criar uma estrutura de mineração, selecione atributos nas dimensões e medidas relacionadas em sua solução OLAP. Valores numéricos normalmente são encontrados em medidas e variáveis categóricas em dimensões. Para obter mais informações, consulte Criar uma estrutura de mineração OLAP.

  • Você também pode definir estruturas de mineração usando DMX. Para obter mais informações, consulte Declarações de definição de dados (Data Mining Extensions - DMX).

Depois de criar a estrutura de mineração inicial, você poderá copiar, modificar e criar pseudônimos para as colunas da estrutura.

Cada estrutura de mineração pode conter vários modelos de mineração. Portanto, depois de terminar, você poderá abrir a estrutura de mineração novamente e usar o Designer de Mineração de Dados para adicionar mais modelos de mineração à estrutura.

Você também tem a opção de separar seus dados em um conjunto de dados de treinamento, usado para criar modelos, e um conjunto de dados de teste para usar na testagem ou validação de seus modelos de mineração.

Aviso

Alguns tipos de modelo, como modelos de série temporal, não dão suporte à criação de conjuntos de dados de espera porque exigem uma série contínua de dados para treinamento. Para obter mais informações, consulte Conjuntos de Dados de Treinamento e Teste.

Modelos de mineração

O modelo de mineração define o algoritmo ou o método de análise que você usará nos dados. Para cada estrutura de mineração, você adiciona um ou mais modelos de mineração.

Dependendo de suas necessidades, você pode combinar muitos modelos em um único projeto ou criar projetos separados para cada tipo de modelo ou tarefa analítica.

Depois de criar uma estrutura e um modelo, você processa cada modelo executando os dados da exibição da fonte de dados por meio do algoritmo, que gera um modelo matemático dos dados. Esse processo também é conhecido como treinamento do modelo. Para obter mais informações, consulte Requisitos e considerações de processamento (mineração de dados).

Depois que o modelo for processado, você poderá explorar visualmente o modelo de mineração e criar consultas de previsão nele. Se os dados do processo de treinamento estiverem em cache, você poderá usar consultas de drillthrough para retornar informações detalhadas sobre os casos usados no modelo.

Quando você deseja usar um modelo para produção (por exemplo, para uso na criação de previsões ou para exploração por usuários gerais), você pode implantar o modelo em um servidor diferente. Se você precisar reprocessar o modelo no futuro, também deverá exportar a definição da estrutura de mineração subjacente (e, necessariamente, a definição da fonte de dados e da exibição da fonte de dados) ao mesmo tempo.

Ao implantar um modelo, você também deve garantir que as opções de processamento corretas sejam definidas na estrutura e no modelo e que os usuários potenciais tenham as permissões necessárias para executar consultas, exibir modelos ou detalhamento para estruturar os dados do modelo. Para obter mais informações, consulte Visão geral de segurança (mineração de dados).

Usando o projeto de mineração de dados concluído

Esta seção resume as maneiras pelas quais você pode usar o projeto de mineração de dados concluído. Você pode criar gráficos de precisão, explorar e validar os dados e disponibilizar os padrões de mineração de dados para os usuários.

Aviso

Os gráficos, consultas e visualizações que você usa com modelos de mineração de dados não são salvos como parte do projeto de mineração de dados e não podem ser implantados. Se você precisar persistir esses objetos, deverá salvar o conteúdo apresentado ou criar um script conforme descrito para cada objeto.

Exibir e explorar modelos

Depois de criar um modelo, você pode usar ferramentas visuais e consultas para explorar os padrões no modelo e saber mais sobre os padrões e estatísticas subjacentes. Na guia Visualizador de Modelos de Mineração no Designer de Mineração de Dados, o Analysis Services fornece visualizadores para cada tipo de modelo de mineração, que você pode usar para explorar os modelos de mineração.

Essas visualizações são temporárias e são fechadas sem salvar quando você sai da sessão com o Analysis Services. Portanto, se você precisar exportar essas visualizações para outro aplicativo para apresentação ou análise posterior, use os comandos Copiar fornecidos em cada guia ou painel da interface do visualizador.

Os Suplementos de Mineração de Dados para Excel também fornecem um modelo do Visio que você pode usar para representar seus modelos em um diagrama do Visio e anotar e modificar o diagrama usando ferramentas do Visio. Para obter mais informações, consulte Os Suplementos de Mineração de Dados do Microsoft SQL Server 2008 SP2 para Microsoft Office 2007.

Testar e validar modelos

Depois de criar um modelo, você pode investigar os resultados e tomar decisões sobre quais modelos têm o melhor desempenho.

O Analysis Services fornece vários gráficos que você pode usar para fornecer ferramentas que podem ser usadas para comparar diretamente os modelos de mineração e escolher o modelo de mineração mais preciso ou útil. Essas ferramentas incluem um gráfico de elevação, um gráfico de lucros e uma matriz de classificação. Você pode gerar esses gráficos usando a guia Gráfico de Precisão de Mineração do Designer de Mineração de Dados.

Você também pode usar o relatório de validação cruzada para executar a subsampação iterativa de seus dados para determinar se o modelo é tendencioso para um determinado conjunto de dados. As estatísticas fornecidas pelo relatório podem ser usadas para comparar objetivamente os modelos e avaliar a qualidade dos dados de treinamento.

Observe que esses relatórios e gráficos não são armazenados com o projeto ou no banco de dados ssASnoversion, portanto, se você precisar preservar ou duplicar os resultados, salve os resultados ou crie um script dos objetos usando DMX ou AMO. Você também pode usar procedimentos armazenados para validação cruzada.

Para obter mais informações, consulte Teste e validação (mineração de dados).

Criar previsões

O Analysis Services fornece uma linguagem de consulta chamada DMX (Extensões de Mineração de Dados) que é a base para criar previsões e é facilmente scriptável. Para ajudá-lo a criar consultas de previsão DMX, o SQL Server fornece um construtor de consultas, disponível no SQL Server Management Studio. Também há muitos modelos DMX para o editor de consultas no SQL Server Management Studio. Se você for novo em consultas de previsão, recomendamos que você use o construtor de consultas fornecido no Designer de Mineração de Dados e no SQL Server Management Studio. Para obter mais informações, consulte Ferramentas de Mineração de Dados.

As previsões criadas no SSDT (SQL Server Data Tools) ou no SQL Server Management Studio não são mantidas, portanto, se suas consultas são complexas ou você precisa reproduzir os resultados, recomendamos que você salve suas consultas de previsão em arquivos de consulta DMX, crie scripts ou insira as consultas como parte de um pacote do Integration Services.

Acesso programático a objetos de mineração de dados

O Analysis Services fornece várias ferramentas que você pode usar para trabalhar programaticamente com projetos de mineração de dados e os objetos neles. A linguagem DMX fornece instruções que você pode usar para criar fontes de dados e exibições de fontes de dados e para criar, treinar e usar modelos e estruturas de mineração de dados. Para obter mais informações, confira Referência de DMX (extensões DMX).

Você também pode executar essas tarefas usando o ASSL (Analysis Services Scripting Language) ou usando AMO (Objetos de Gerenciamento de Análise). Para obter mais informações, consulte Desenvolvimento com XMLA no Analysis Services.

Os tópicos a seguir descrevem o uso do Assistente de Mineração de Dados para criar um projeto de mineração de dados e objetos associados.

Tarefas Tópicos
Descreve como trabalhar com colunas de estrutura de mineração Criar uma estrutura de mineração relacional
Fornece mais informações sobre como adicionar novos modelos de mineração e processar uma estrutura e modelos Adicionar modelos de mineração a uma estrutura (Analysis Services – Mineração de dados)
Fornece links para recursos que ajudam você a personalizar os algoritmos que criam modelos de mineração Personalizar modelos e estrutura de mineração
Fornece links para informações sobre cada um dos visualizadores do modelo de mineração Visualizadores do modelo de Mineração de dados
Saiba como criar um gráfico de elevação, um gráfico de lucros ou uma matriz de classificação ou testar uma estrutura de mineração Teste e validação (mineração de dados)
Saiba mais sobre as opções e permissões de processamento Processando objetos de mineração de dados
Fornece mais informações sobre o Analysis Services Bancos de Dados de Modelo Multidimensional (SSAS)

Consulte Também

Designer de Mineração de Dados
Criando modelos multidimensionais usando o SSDT (SQL Server Data Tools)
Banco de Dados do Espaço de Trabalho (SSAS Tabular)