Compartilhar via


Arquitetura lógica (Analysis Services – Mineração de dados)

A mineração de dados é um processo que envolve a interação de vários componentes.

  • Você acessa fontes de dados em um banco de dados do SQL Server ou em qualquer outra fonte de dados a ser usada para treinamento, teste ou previsão.

  • Você define estruturas e modelos de mineração de dados usando o SSDT (SQL Server Data Tools) ou o Visual Studio.

  • Você gerencia objetos de mineração de dados e cria previsões e consultas usando o SQL Server Management Studio.

  • Quando a solução for concluída, você a implantará em uma instância do Analysis Services.

O processo de criação desses objetos de solução já foi descrito em outro lugar. Para obter mais informações, consulte Soluções de mineração de dados.

Dados da fonte de mineração de dados

Os dados que você usa na mineração de dados não são armazenados na solução de mineração de dados; somente as associações são armazenadas. Os dados podem residir em um banco de dados criado em uma versão anterior do SQL Server, um sistema CRM ou até mesmo em um arquivo simples. Quando você treina a estrutura ou o modelo processando, um resumo estatístico dos dados é criado e armazenado em um cache que pode ser mantido para uso em operações posteriores ou excluído após o processamento. Para obter mais informações, consulte Estruturas de Mineração (Analysis Services – Mineração de Dados).

Você combina dados diferentes dentro do objeto DSV (exibição de fonte de dados) do Analysis Services, que fornece uma camada de abstração sobre a fonte de dados. Você pode especificar junções entre tabelas ou adicionar tabelas que tenham uma relação muitos para um para criar colunas de tabela aninhadas. A definição desses objetos, a fonte de dados e a exibição da fonte de dados, são armazenadas dentro da solução com as extensões de nome de arquivo, *.ds e *.dsv. Para obter mais informações sobre como criar e usar fontes de dados e exibições de fontes de dados do Analysis Services, consulte Fontes de Dados Compatíveis (Multidimensionais do SSAS).

Você também pode definir e alterar fontes de dados e exibições de fonte de dados usando AMO ou XMLA. Para obter mais informações sobre como trabalhar com esses objetos programaticamente, consulte Visão geral da arquitetura lógica (Analysis Services – Dados Multidimensionais).

Estruturas de mineração

Uma estrutura de mineração de dados é um contêiner de dados lógicos que define o domínio de dados do qual os modelos de mineração são criados. Uma única estrutura de mineração pode dar suporte a vários modelos de mineração.

Quando você precisa usar os dados na solução de mineração de dados, o Analysis Services lê os dados da origem e gera um cache de agregações e outras informações. Por padrão, esse cache é mantido para que os dados de treinamento possam ser reutilizados para dar suporte a modelos adicionais. Se você precisar excluir o cache, altere a CacheMode propriedade no objeto da estrutura de mineração para o valor ClearAfterProcessing. Para obter mais informações, consulte Amo Data Mining Classes.

O SSAS (SQL Server 2014 Analysis Services) também fornece a capacidade de separar seus dados em conjuntos de dados de treinamento e teste, para que você possa testar seus modelos de mineração em um conjunto de dados selecionado aleatoriamente. Os dados não são armazenados separadamente; em vez disso, os dados de caso no cache de estrutura são marcados com uma propriedade que indica se esse caso específico é usado para treinamento ou para teste. Se o cache for excluído, essas informações não poderão ser recuperadas.

Para obter mais informações, consulte Estruturas de Mineração (Analysis Services – Mineração de Dados).

Uma estrutura de mineração de dados pode conter tabelas aninhadas. Uma tabela aninhada fornece detalhes adicionais sobre o caso que é modelado na tabela de dados primária. Para obter mais informações, consulte Tabelas Aninhadas (Analysis Services – Mineração de Dados)

Modelos de mineração

Antes do processamento, um modelo de mineração de dados é apenas uma combinação de propriedades de metadados. Essas propriedades especificam uma estrutura de mineração, especificam um algoritmo de mineração de dados e uma coleção definida de parâmetros e configurações de filtro que afetam como os dados são processados. Para obter mais informações, consulte Modelos de Mineração (Analysis Services – Mineração de Dados).

Quando você processa o modelo, os dados de treinamento armazenados no cache da estrutura de mineração são usados para gerar padrões, com base nas propriedades estatísticas dos dados e na heurística definida pelo algoritmo e seus parâmetros. Isso é conhecido como treinamento do modelo.

O resultado do treinamento é um conjunto de dados de resumo, contidos no conteúdo do modelo, que descreve os padrões encontrados e fornece regras para gerar previsões. Para obter mais informações, consulte Conteúdo do Modelo de Mineração (Analysis Services – Mineração de Dados).

Em casos limitados, a estrutura lógica do modelo também pode ser exportada para um arquivo que representa fórmulas de modelo e associações de dados de acordo com um formato padrão, a PMML (Predictive Modeling Markup Language). Essa estrutura lógica pode ser importada para outros sistemas que utilizam PMML e o modelo, portanto, descrito pode ser usado para previsão. Para obter mais informações, consulte Noções básicas sobre a instrução DMX Select.

Objetos de mineração de dados personalizados

Outros objetos que você usa no contexto de um projeto de mineração de dados, como gráficos de precisão ou consultas de previsão, não são mantidos dentro da solução, mas podem ser criados em script usando ASSL ou criados usando AMO.

Além disso, você pode estender os serviços e recursos disponíveis em uma instância do Analysis Services adicionando estes objetos personalizados:

Conjuntos personalizados
Os assemblies .NET podem ser definidos usando qualquer linguagem compatível com CLR ou COM e registrados com uma instância de SQL Server. Os arquivos de assembly são carregados do local definido pelo aplicativo e uma cópia é salva no servidor junto com os dados. A cópia do arquivo de assemblagem é usada para carregar a assemblagem sempre que o serviço é iniciado.

Para obter mais informações, consulte Gerenciamento de Conjuntos de Modelo Multidimensional.

Procedimentos armazenados personalizados
A mineração de dados do Analysis Services dá suporte ao uso de procedimentos armazenados para trabalhar com objetos de mineração de dados. Você pode criar seus próprios procedimentos armazenados para estender a funcionalidade e trabalhar com mais facilidade com os dados retornados por consultas de previsão e consultas de conteúdo.

Definindo procedimentos armazenados

Os procedimentos armazenados a seguir têm suporte para uso na execução de validação cruzada.

Procedimentos armazenados de mineração de dados (Analysis Services – Mineração de dados)

Além disso, o Analysis Services contém muitos procedimentos armazenados do sistema que são usados internamente para mineração de dados. Embora os procedimentos armazenados do sistema sejam para uso interno, você pode encontrá-los atalhos úteis. A Microsoft se reserva o direito de alterar esses procedimentos armazenados conforme necessário; Portanto, para uso em produção, recomendamos que você crie consultas usando DMX, AMO ou XMLA.

Algoritmos de plug-in personalizados
O Analysis Services fornece um mecanismo para criar seus próprios algoritmos e, em seguida, adicionar os algoritmos como um novo serviço de mineração de dados à instância do servidor.

O Analysis Services usa interfaces COM para se comunicar com algoritmos de plug-in. Para saber mais sobre como implementar novos algoritmos, consulte Algoritmos de Plug-in.

Você deve registrar cada novo algoritmo antes de usá-lo. Para registrar um algoritmo, adicione os metadados necessários para os algoritmos no arquivo .ini da instância do Analysis Services. Você deve adicionar as informações a cada instância em que planeja usar o novo algoritmo. Depois de adicionar o algoritmo, você pode reiniciar a instância e usar o conjunto de linhas de esquema MINING_SERVICES para exibir o novo algoritmo, incluindo as opções e provedores aos quais o algoritmo dá suporte.

Consulte Também

Processamento de objeto de modelo multidimensional
Referência de DMX (Data Mining Extensions)