Compartilhar via


Criação de perfil de dados

Este artigo descreve a criação de perfil de dados. Ele fornece uma visão geral dos componentes e do uso da criação de perfil de dados.

O perfilamento de dados fornece estatísticas resumidas para uma tabela, calculando métricas de perfilamento ao longo do tempo, permitindo a fácil visualização de tendências passadas. É útil para o monitoramento detalhado de todas as principais métricas para tabelas selecionadas. Você também pode usá-lo para acompanhar o desempenho de modelos de machine learning e pontos de extremidade que servem modelos criando perfis de tabelas de inferência que contêm entradas e previsões de modelo. O diagrama mostra o fluxo de dados através de pipelines de dados e ML no Databricks, e como você pode usar o perfilamento para acompanhar continuamente a qualidade dos dados e o desempenho do modelo.

Visão geral do Data Profiling

Por que usar a criação de perfil de dados?

As métricas quantitativas ajudam você a acompanhar e confirmar a qualidade e a consistência de seus dados ao longo do tempo. Quando você detecta alterações na distribuição de dados da tabela ou no desempenho do modelo correspondente, as tabelas criadas pela criação de perfil de dados podem capturar e alertar você sobre a alteração e podem ajudá-lo a identificar a causa.

A criação de perfil de dados ajuda você a responder perguntas como a seguinte:

  • Como é a integridade dos dados e como ela muda ao longo do tempo? Por exemplo, qual é a fração de valores nulos ou zero nos dados atuais? Essa fração tem aumentado?
  • Como é a distribuição estatística dos dados e como eles mudam ao longo do tempo? Por exemplo, qual é o 90º percentil de uma coluna numérica? Ou, qual é a distribuição de valores em uma coluna categórica e como ela difere das anteriores?
  • Há descompasso entre os dados atuais e uma linha de base conhecida ou entre janelas de tempo sucessivas dos dados?
  • Como é a distribuição estatística ou descompasso de um subconjunto ou fatia dos dados?
  • Como as entradas e previsões do modelo de ML estão mudando ao longo do tempo?
  • Qual é a tendência de desempenho do modelo ao longo do tempo? A versão A do modelo tem um desempenho melhor do que a versão B?

Além disso, a criação de perfil de dados permite controlar a granularidade de tempo das observações e configurar métricas personalizadas.

Requirements

  • O workspace deve estar habilitado para o Catálogo do Unity e ter acesso ao SQL do Databricks.
  • Para habilitar a criação de perfil de dados, você deve ter os seguintes privilégios:
    • USE CATALOG no catálogo e USE SCHEMA no esquema que contém a tabela.
    • SELECT na tabela.
    • MANAGE no catálogo, esquema ou tabela.

Observação

O perfilamento de dados utiliza computação serverless para executar tarefas, mas não exige que sua conta esteja habilitada para computação serverless. Para obter informações sobre como controlar as despesas, consulte Exibir despesas de monitoramento de qualidade de dados.

Como funciona a criação de perfil de dados

Para fazer o perfil de uma tabela, você cria um perfil anexado à tabela. Para criar o perfil do desempenho de um modelo de machine learning, você anexa o perfil a uma tabela de inferência que contém as entradas do modelo e as previsões correspondentes.

O perfilamento de dados fornece os seguintes tipos de análise: série temporal, inferência e análise instantânea.

Tipo de perfil Description
Série temporal Utilize para tabelas que contenham um conjunto de dados de série temporal com base em uma coluna de carimbo de data/hora. O perfilamento calcula métricas de qualidade de dados em janelas temporais da série temporal.
Inferência Use para tabelas que contenham o registro de solicitações de um modelo. Cada linha é uma solicitação, com colunas para o carimbo de data/hora, as entradas do modelo, a previsão correspondente e o rótulo (opcional) da verdade básica. O perfilamento compara o desempenho do modelo e as métricas de qualidade dos dados nas janelas temporais do log de solicitações.
Instantâneo Use para todos os outros tipos de tabelas. O perfilamento calcula as métricas de qualidade de dados sobre todos os dados na tabela. A tabela completa é processada a cada atualização.

Esta seção descreve brevemente as tabelas de entrada usadas pela criação de perfil de dados e as tabelas de métricas que ela produz. O diagrama mostra a relação entre as tabelas de entrada, as tabelas de métricas, o perfil e o painel.

Diagrama de análise de perfil de dados

Tabela primária e tabela de linha de base

Além da tabela a ser perfilada, chamada de "tabela primária", você pode, opcionalmente, especificar uma tabela de linha de base a ser usada como referência para medir o descompasso ou a alteração de valores ao longo do tempo. Uma tabela de linha de base é útil ao ter uma amostra da aparência esperada de seus dados. A ideia é que o descompasso seja calculado em relação aos valores de dados e distribuições esperados.

A tabela de linha de base deve conter um conjunto de dados que reflita a qualidade esperada dos dados de entrada, em termos de distribuições estatísticas e colunas individuais, valores ausentes e outras características. Deve corresponder ao esquema da tabela perfilada. A exceção é a coluna de carimbo de data/hora para tabelas usadas com perfis de série temporal ou inferência. Se as colunas estiverem ausentes na tabela primária ou na tabela de linha de base, a criação de perfil usará heurística de melhor esforço para calcular as métricas de saída.

Para perfis que usam um perfil de instantâneo, a tabela de linha de base deve conter um instantâneo dos dados em que a distribuição representa um padrão de qualidade aceitável. Por exemplo, em dados de distribuição de nível, pode-se definir a linha de base como uma classe anterior em que as notas eram distribuídas uniformemente.

Para perfis que usam um perfil de série temporal, a tabela de linha de base deve conter dados que representem janelas de tempo em que as distribuições de dados representam um padrão de qualidade aceitável. Por exemplo, nos dados meteorológicos, defina a linha de base como uma semana, mês ou ano em que a temperatura estava próxima das temperaturas normais esperadas.

Para perfis que usam um perfil de inferência, uma boa opção para uma linha de base são os dados que foram usados para treinar ou validar o modelo que está sendo perfilado. Dessa forma, os usuários podem ser alertados quando os dados tiverem descompasso em relação ao que o modelo foi treinado e validado. Essa tabela deve conter as mesmas colunas de recursos que a tabela primária e, além disso, deve ter o mesmo model_id_col que foi especificado para o InferenceLog da tabela primária para que os dados sejam agregados de forma consistente. O ideal é que o conjunto de teste ou validação usado para avaliar o modelo seja usado para garantir métricas comparáveis de qualidade do modelo.

Tabelas de métricas e dashboard

A criação de perfil cria duas tabelas de métricas e um painel. Os valores de métrica são computados para toda a tabela e para as janelas de tempo e subconjuntos de dados (ou "fatias") que você especifica ao criar o perfil. Além disso, para análise de inferência, as métricas são computadas para cada ID de modelo. Para obter mais detalhes sobre as tabelas de métricas, consulte tabelas de métricas de perfilamento de dados.

As tabelas de métrica são tabelas Delta e são armazenadas em um esquema do Catálogo do Unity que você especificar. É possível exibir essas tabelas usando a interface do usuário do Databricks, consultá-las usando o SQL do Databricks e criar dashboards e alertas com base nelas.

Para cada perfil, o Databricks cria automaticamente um painel para ajudá-lo a visualizar e apresentar os resultados do perfil. O painel é totalmente personalizável. Consulte Dashboards.

Limitações

  • Somente tabelas Delta têm suporte para criação de perfil e a tabela deve ser um dos seguintes tipos de tabela: tabelas gerenciadas, tabelas externas, exibições, exibições materializadas ou tabelas de streaming.
  • Perfis criados sobre visões materializadas não dão suporte ao processamento incremental.
  • Nem todas as regiões têm suporte. Para obter suporte regional, consulte a coluna perfilamento de dados na tabela disponibilidade dos recursos de IA e machine learning.
  • Perfis criados usando os modos de análise de série temporal ou inferência apenas computam métricas nos últimos 30 dias. Se você precisar ajustar isso, entre em contato com sua equipe de conta do Databricks.

Comece a usar o perfilamento de dados

Consulte os seguintes artigos para começar: