Partilhar via


Ligar e gerir o Catálogo do Unity do Azure Databricks no Microsoft Purview

Este artigo descreve como registar o Azure Databricks e como autenticar e interagir com o Catálogo unity do Azure Databricks no Microsoft Purview. Para obter mais informações sobre o Microsoft Purview, leia o artigo introdutório.

Recursos compatíveis

Capacidades de análise

Extração de Metadados Verificação Completa Análise Incremental Análise de Âmbito
Sim Sim Sim Sim

Ao analisar o Catálogo do Unity do Azure Databricks, o Microsoft Purview suporta:

  • Extrair metadados técnicos, incluindo:
    • Metastore
    • Catálogos
    • Esquemas
    • Tabelas, incluindo as colunas
    • Vistas, incluindo as colunas
  • Obter linhagem nas relações de recursos entre tabelas, vistas e colunas durante as execuções do bloco de notas.

Ao configurar a análise, pode optar por analisar todo o Catálogo do Unity ou definir o âmbito da análise para um subconjunto de catálogos.

Outras capacidades

Para classificações, etiquetas de confidencialidade, políticas, linhagem de dados e vista dinâmica, veja a lista de capacidades suportadas.

Observação

Este conector traz metadados do Catálogo do Unity do Azure Databricks. Para analisar metadados no âmbito da área de trabalho do Azure Databricks, veja Conector metastore do Hive do Azure Databricks.

Limitações conhecidas

  • Os nomes dos blocos de notas do Databricks aparecem como IDs numéricos em vez de nomes legíveis no Microsoft Purview. Esta é uma limitação do Databricks, uma vez que os nomes dos blocos de notas não são expostos na tabela do sistema do Catálogo unity.

  • Poderá encontrar erros se os resultados da análise do Azure Databricks excederem os 1 MB e o armazenamento de blobs gerido pelo Azure Databricks negar o acesso à rede pública. Para evitar esta situação, certifique-se de que o Purview tem acesso à localização de armazenamento interna do DBFS da área de trabalho do Azure Databricks que está a ser analisada. Pode saber mais sobre isto aqui.

  • A análise incremental está disponível apenas para a origem de dados do Catálogo Unity do Azure Databricks .

  • A análise de âmbito está disponível para a opção Catálogo do Unity apenas na origem de dados do Azure Databricks .

  • Os pontos finais privados geridos podem ser adicionados para a opção Catálogo do Unity apenas na origem de dados do Azure Databricks .

  • Quando o objeto é eliminado da origem de dados, atualmente a análise subsequente não remove automaticamente o recurso correspondente no Microsoft Purview.

  • As informações de linhagem não estão disponíveis nas áreas de trabalho do Azure Databricks na região da China. Isto acontece porque as tabelas de sistema do Azure Databricks não são suportadas nesta região. O Microsoft Purview utiliza estas tabelas para extrair linhagem, pelo que a linhagem não pode ser obtida nesta região.

  • Para obter mais informações sobre outras limitações relacionadas com a linhagem nativa do Azure Databricks, veja a documentação do Azure Databricks.

Pré-requisitos

  • Tem de ter uma conta do Azure com uma subscrição ativa. Crie uma conta gratuitamente.

  • Tem de ter uma conta ativa do Microsoft Purview.

  • Precisa de uma Key Vault do Azure e de conceder permissões ao Microsoft Purview para aceder a segredos.

  • Precisa de permissões de Administrador de Origem de Dados e Leitor de Dados para registar uma origem e geri-la no portal de governação clássico do Microsoft Purview. Para obter mais informações sobre permissões, consulte Controlo de acesso no Microsoft Purview.

  • Para analisar o Catálogo do Unity do Azure Databricks, o Microsoft Purview liga-se a um SQL Warehouse na sua área de trabalho e utiliza o Token de Acesso Pessoal para autenticação. Tem de ter uma área de trabalho do Azure Databricks ativada e anexada ao metastore que pretende analisar. Na sua área de trabalho do Azure Databricks:

    • Crie um SQL Warehouse. Também pode utilizar o armazém Starter criado automaticamente, se aplicável.

      • Anote o caminho HTTP. Pode encontrá-lo na área de trabalho > do Azure Databricks SQL Warehouses > o caminho HTTP dos detalhes > da ligação do armazém>.

      • Certifique-se de que o utilizador tem a permissão Pode Utilizar para se poder ligar ao Azure Databricks SQL Warehouse. Saiba mais em Controlo de acesso do SQL Warehouse.

      • O SQL Warehouse no Azure Databricks tem de estar em execução para estabelecer uma ligação com o Microsoft Purview antes de configurar a análise no Microsoft Purview.

  • Para obter a linhagem do Azure Databricks com o Microsoft Purview, os seguintes pré-requisitos têm de estar implementados:

    • Ativar o esquema do sistema: o system schema system.access tem de estar ativado no catálogo do Unity. Isto é necessário porque as informações de linhagem são armazenadas em tabelas do sistema e a ativação deste esquema permite o acesso a essas tabelas. Saiba mais sobre a monitorização da utilização com tabelas do sistema.

    • Privilégios de utilizador: a conta de utilizador utilizada para a análise tem de ter privilégios SELECT nas seguintes tabelas do sistema:

      • system.access.table_lineage

      • system.access.column_lineage

      Estas permissões são necessárias porque os dados de linhagem são lidos diretamente a partir das tabelas do sistema e, sem o acesso necessário, o Microsoft Purview não consegue obter as informações de linhagem.

  • Se a área de trabalho do Azure Databricks não permitir o acesso a partir da rede pública ou se a sua conta do Microsoft Purview não ativar o acesso a partir de todas as redes, pode utilizar o Managed Rede Virtual Integration Runtime ou um runtime de integração autoalojado suportado pelo Kubernetes para analisar. Pode configurar um ponto final privado gerido para o Azure Databricks, conforme necessário, para estabelecer conectividade privada.

Configuração da origem de dados (Azure Databricks vs Catálogo do Unity do Azure Databricks)

A ligação do Catálogo do Unity do Azure Databricks ao Microsoft Purview pode ser configurada através de duas origens:

  • Azure Databricks (origem antiga)
  • Catálogo do Unity no Azure Databricks

Diferenças nas capacidades entre origens de dados

As capacidades do conector do Catálogo unity do Azure Databricks diferem com base na origem utilizada para a ligação, conforme descrito nesta tabela:

Recursos Origem antiga Nova origem
Nome da origem Azure Databricks Catálogo do Unity no Azure Databricks
Suporte de origem Catálogo do Unity do Hive & Catálogo do Unity
Autenticação: Token de Acesso Pessoal Com suporte Com suporte
Autenticação: Principal de Serviço Não Com suporte
Autenticação: Identidade Gerida Não Suportado (identidade gerida pelo sistema)
Integration Runtime: Azure IR Com suporte Com suporte
Integration Runtime: IR da vNet gerida Com suporte Não
Integration Runtime: IR do Kubernetes Self-Hosted Com suporte Com suporte
Análise no âmbito Sim - nível de catálogo Não
Análise incremental Não Sim
Linhagem Com suporte Com suporte

Que fonte devo utilizar?

Pode escolher uma origem com base nas necessidades da sua organização ou utilizar ambas em paralelo. Alternar entre origens ou utilizar ambas em simultâneo não causará a duplicação de recursos no Microsoft Purview. Esta flexibilidade permite-lhe começar com a opção que melhor se adequa à sua configuração atual e ajustar-se ao longo do tempo conforme necessário.

Autenticação para uma análise

Pode utilizar tokens de acesso pessoal, identidades geridas ou métodos de autenticação do principal de serviço para analisar o Catálogo do Unity do Azure Databricks.

Se estiver a utilizar uma identidade gerida atribuída pelo sistema

No Azure Databricks
  1. Navegue para Definições>Identidade e acesso de administrador > da Áreade Trabalho.

  2. Selecione Adicionar principal de serviço.

  3. Selecione Adicionar novo.

  4. Selecione Microsoft Entra ID gerido. Indique o ID da Aplicação para o Microsoft Purview. Pode encontrar o ID da Aplicação em Detalhes do recurso da conta do Microsoft Purview no portal do Azure.

Imagem do utilizador

No Microsoft Purview
  1. Selecione a identidade gerida atribuída pelo sistema em Credencial.
  • Para todos os objetos que pretende trazer para o Microsoft Purview, o principal de utilizador ou serviço tem de ter, pelo menos, privilégio SELECT em tabelas/vistas, UTILIZAR CATÁLOGO no catálogo do objeto e UTILIZAR ESQUEMA no esquema do objeto.

Registrar

Esta secção descreve como registar uma área de trabalho do Azure Databricks no Microsoft Purview através do portal de governação clássico do Microsoft Purview.

  1. Aceda à sua conta do Microsoft Purview.

  2. Selecione Mapa de Dados no painel esquerdo.

  3. Selecione Registrar.

  4. Em Registar origens, selecioneContinuar Catálogo do Unity > do Azure Databricks.

  5. No ecrã Registar origens (Catálogo do Unity do Azure Databricks ), faça o seguinte:

  6. Em Nome, introduza um nome que o Microsoft Purview irá listar como a origem de dados.

    1. Para o ID do Metastore, forneça o ID do metastore para o metastore do Catálogo unity do Azure Databricks que pretende analisar.

    2. Selecione uma coleção na lista.

Captura de ecrã a mostrar o registo da origem do Catálogo unity do Azure Databricks.

  1. Selecione Concluir.

Examinar

Dica

Para resolver problemas com a análise:

  1. Confirme que seguiu todos os pré-requisitos.
  2. Veja a nossa documentação de resolução de problemas de análise.

Utilize os seguintes passos para analisar o Azure Databricks para identificar automaticamente os recursos. Para obter mais informações sobre a análise em geral, consulte Análises e ingestão no Microsoft Purview.

  1. Aceda a Origens.

  2. Selecione o Azure Databricks registado.

  3. Selecione + Nova análise.

  4. Forneça os seguintes detalhes:

    1. Nome: introduza um nome para a análise.

    2. Ligar através do runtime de integração: escolha o runtime de integração do Azure predefinido, o IR de Rede Virtual Gerido ou um runtime de integração autoalojado suportado pelo Kubernetes que criou.

    3. Credencial: selecione a credencial para ligar à sua origem de dados. Certifique-se de que:

    4. URL da área de trabalho: Indique o URL da área de trabalho que pretende analisar.

    5. Caminho HTTP: Especifique o caminho HTTP do Databricks SQL Warehouse ao qual o Microsoft Purview se ligará e executará a análise; por exemplo, /sql/1.0/endpoints/xxxxxxxxxxxxxxxx. Pode encontrá-lo na área de trabalho do Azure Databricks -> SQL Warehouses -> o seu armazém -> Detalhes da ligação -> caminho HTTP.

    6. Extração de linhagem: Alterne a extração de linhagem para Ativado para obter a linhagem dos recursos analisados.

  5. Selecione Testar ligação para validar as definições.

    Captura de ecrã a mostrar a configuração da análise do Catálogo unity do Azure Databricks.

  6. Selecione Continuar.

  7. Em Acionador de análise, escolha se pretende configurar um agendamento ou executar a análise uma vez.

  8. Reveja a análise e selecione Guardar e Executar.

Assim que a análise for concluída com êxito, veja como procurar e pesquisar recursos.

Ver as suas análises e execuções de análise

Para ver as análises existentes:

  1. Aceda ao portal do Microsoft Purview. No painel esquerdo, selecione Mapa de dados.
  2. Selecione a origem de dados. Pode ver uma lista de análises existentes nessa origem de dados em Análises recentes ou pode ver todas as análises no separador Análises .
  3. Selecione a análise que tem os resultados que pretende ver. O painel mostra-lhe todas as execuções de análise anteriores, juntamente com as status e as métricas de cada execução de análise.
  4. Selecione o ID de execução para marcar os detalhes da execução da análise.

Gerir as suas análises

Para editar, cancelar ou eliminar uma análise:

  1. Aceda ao portal do Microsoft Purview. No painel esquerdo, selecione Mapa de Dados.

  2. Selecione a origem de dados. Pode ver uma lista de análises existentes nessa origem de dados em Análises recentes ou pode ver todas as análises no separador Análises .

  3. Selecione a análise que pretende gerir. Você poderá:

    • Edite a análise ao selecionar Editar análise.
    • Cancele uma análise em curso ao selecionar Cancelar execução de análise.
    • Elimine a análise ao selecionar Eliminar análise.

Observação

  • Eliminar a análise não elimina os recursos de catálogo criados a partir de análises anteriores.

Procurar e pesquisar recursos

Depois de analisar o Azure Databricks, pode procurar Catálogo unificado ou procurar Catálogo unificado para ver os detalhes e a linhagem dos recursos.

Ao navegar por tipos de origem, verá duas entradas para o Catálogo unity do Azure Databricks e o Azure Databricks , respetivamente. O primeiro contém os artefactos do Catálogo unity, incluindo o metastore e os respetivos catálogos/esquemas/tabelas/vistas, enquanto estes contêm os artefactos da área de trabalho.

Captura de ecrã a mostrar os recursos de navegação por tipo de origem.

No recurso da área de trabalho do Azure Databricks, pode encontrar o Catálogo do Unity associado no separador Propriedades. Também se aplica reverso.

Captura de ecrã a mostrar a localização do Catálogo do Unity associado à origem do Azure Databricks.

Linhagem

Ao navegar num recurso específico do Azure Databricks, pode ver os blocos de notas que capturaram a linhagem.

Aceda ao separador ativo -> linhagem, pode ver a linhagem no recurso do Bloco de Notas do Azure Databricks ou no recurso de tabela/vista quando aplicável.

Captura de ecrã a mostrar os blocos de notas de navegação presentes no recurso de área de trabalho do Catálogo unity do Azure Databricks associado.

Captura de ecrã da linhagem do bloco de notas presente no recurso de área de trabalho do Catálogo do Unity do Azure Databricks associado.

Cenários de linhagem suportados

  • A linhagem é suportada para tabelas e vistas quando estão ligadas através de blocos de notas do Databricks no Catálogo unity.

  • A linhagem aparece apenas para objetos analisados através do Microsoft Purview. Todos os recursos relacionados têm de ser analisados para formar um gráfico de linhagem completo. Certifique-se de que todas as áreas de trabalho do Databricks com blocos de notas relevantes estão incluídas nas análises do Microsoft Purview.

Limitações de linhagem

  • Quando os blocos de notas são executados através de tarefas do Databricks, a linhagem ao nível da coluna poderá não ser capturada.
  • O Microsoft Purview mostra apenas linhagem parcial se nem todos os objetos envolvidos num fluxo de dados forem analisados. Por exemplo, se um bloco de notas na Área de Trabalho A escrever dados numa tabela na Área de Trabalho B, mas apenas a Área de Trabalho A for analisada pelo Microsoft Purview, a linhagem mostrará o bloco de notas, mas não a tabela de destino, resultando numa linhagem incompleta.
  • Se um bloco de notas for acionado por um serviço externo (por exemplo, Azure Data Factory pipeline [ADF] a chamar uma tarefa do Databricks), a linhagem não refletirá essa dependência no Microsoft Purview.
    • Neste caso, a linhagem entre os conjuntos de dados do ADF e os recursos do Databricks não é apresentada.
    • Apenas é capturada a linhagem criada nos blocos de notas do Databricks.

O cenário de linhagem está em falta

A extração de linhagem é passiva; apenas o que é registado e acessível através da tabela do sistema catálogo do Unity é ingerido pelo Microsoft Purview.

  • Veja as secções acima para garantir que o seu cenário de linhagem é suportado.
  • Confirme que as tabelas do sistema de linhagem do Catálogo unity (system.access.table_lineage, system.access.column_lineage) estão a ser preenchidas corretamente.
  • Crie um pedido de suporte se ainda encontrar problemas.

Veja a secção de capacidades suportadas nos cenários de linhagem do Catálogo Do Unity do Databricks suportados. Para obter mais informações sobre a linhagem em geral, veja Guia do utilizador da linhagem e linhagem de dados.

Perguntas frequentes (FAQ)

A linhagem ao nível da coluna do Catálogo do Unity é capturada pelo Microsoft Purview?

O Microsoft Purview pode capturar linhagem ao nível da tabela/vista do Catálogo do Unity e ao nível da coluna.

Não vejo linhagem ao nível da coluna, o que está a acontecer?

A linhagem ao nível da coluna é gerada quando o bloco de notas é executado a partir de um cluster e não é gerado através de um SQL Warehouse.

Estou a receber um erro de tempo limite, o que devo fazer?

Quando existe um grande volume de recursos na área de trabalho, a análise pode não ser concluída. Neste caso, pode definir o âmbito da análise para alguns catálogos de cada vez, o que reduzirá o volume de recursos por análise e permitirá que as análises sejam concluídas.

Acabei de executar o meu bloco de notas, mas o Microsoft Purview não obteve a linhagem. O que está a acontecer?

Poderá haver alguns minutos de atraso para o Databricks atualizar as informações de linhagem nas respetivas tabelas de sistema após a execução do bloco de notas. O Microsoft Purview poderá obter a linhagem assim que as tabelas do sistema forem atualizadas.

Próximas etapas

Agora que a sua origem está registada, utilize os seguintes guias para saber mais sobre o Microsoft Purview e os seus dados: