Partilhar via


Tutorial: Configurar bancos de dados espelhados do Microsoft Fabric a partir do Azure Databricks

O espelhamento de banco de dados no Microsoft Fabric é uma tecnologia SaaS, baseada em nuvem e de ETL zero. Este guia ajuda você a estabelecer um banco de dados espelhado do Azure Databricks, que cria uma cópia somente leitura e replicada continuamente de seus dados do Azure Databricks no OneLake.

Pré-requisitos

  • Você deve habilitar o acesso a dados externos no metastore. Para obter mais informações, consulte Habilitar acesso a dados externos no metastore.
  • Crie ou use um espaço de trabalho existente do Azure Databricks com o Unity Catalog habilitado.
  • Você deve ter o EXTERNAL USE SCHEMA privilégio no esquema no Unity Catalog que contém as tabelas que serão acessadas a partir do Fabric.
  • Você precisa usar o modelo de permissões do Fabric para definir controles de acesso para catálogos, esquemas e tabelas no Fabric.
  • Os espaços de trabalho do Azure Databricks não podem estar atrás de um ponto de extremidade privado.

Criar um banco de dados espelhado a partir do Azure Databricks

Siga estas etapas para criar um novo banco de dados espelhado do seu Catálogo Unity do Azure Databricks.

  1. Navegue até https://powerbi.com.

  2. Selecione + Novo e, em seguida, Catálogo espelhado do Azure Databricks.

    Captura de tela do portal Fabric de um novo item espelhado do Azure Databricks.

  3. Selecione uma conexão existente se tiver uma configurada.

    • Se você não tiver uma conexão existente, crie uma nova conexão e insira todos os detalhes. Você pode autenticar em seu espaço de trabalho do Azure Databricks usando 'Conta organizacional' ou 'Entidade de serviço'. Para criar uma conexão, você deve ser um usuário ou um administrador do espaço de trabalho do Azure Databricks.
    • Para acessar contas do Azure Data Lake Storage (ADLS) Gen2 atrás de um firewall, você deve seguir as etapas para Habilitar o acesso de segurança de rede para sua conta do Azure Data Lake Storage Gen2 mais adiante neste artigo.
  4. Depois de se conectar a um espaço de trabalho do Azure Databricks, na página Escolher tabelas de um catálogo do Databricks , você poderá selecionar o catálogo, esquemas e tabelas por meio da lista de inclusão/exclusão que deseja adicionar e acessar do Microsoft Fabric. Escolha o catálogo e seus esquemas e tabelas relacionados que você deseja adicionar ao seu espaço de trabalho do Fabric.

    • Você só pode ver os catálogos/esquemas/tabelas aos quais você tem acesso de acordo com os privilégios concedidos a eles de acordo com o modelo de privilégios descrito em Privilégios do Catálogo Unity e objetos protegíveis.
    • Por padrão, a opção Sincronizar automaticamente futuras alterações de catálogo para o esquema selecionado está habilitada. Para obter mais informações, consulte Espelhando o Catálogo Unity do Azure Databricks.
    • Quando tiver feito as suas seleções, selecione Seguinte.
  5. Por padrão, o nome do item será o nome do catálogo que você está tentando adicionar ao Fabric. Na página Revisar e criar , você pode revisar os detalhes e, opcionalmente, alterar o nome do item de banco de dados espelhado, que deve ser exclusivo em seu espaço de trabalho. Selecione Criar.

  6. Um item de catálogo Databricks é criado e, para cada tabela, um atalho de tipo Databricks correspondente também é criado.

    • Os esquemas que não têm tabelas não são mostrados.
  7. Você também pode ver uma visualização dos dados ao acessar um atalho selecionando o ponto de extremidade de análise SQL. Abra o item de ponto de extremidade da análise SQL para iniciar a página do Explorer e do editor de consultas. Você pode consultar suas tabelas espelhadas do Azure Databricks com T-SQL no Editor SQL.

Criar atalhos do Lakehouse para o item de catálogo Databricks

Você também pode criar atalhos do Lakehouse para o item do catálogo Databricks para usar os dados do Lakehouse e usar os Blocos de Anotações do Spark.

  1. Primeiro, criamos uma casa no lago. Se você já tem uma lakehouse neste espaço de trabalho, você pode usar uma lakehouse existente.
    1. Selecione seu espaço de trabalho no menu de navegação.
    2. Selecione + New>Lakehouse.
    3. Forneça um nome para sua casa do lago no campo Nome e selecione Criar.
  2. Na vista Explorer da sua casa do lago, no menu Obter dados na sua casa do lago , em Carregar dados na sua casa do lago, selecione o botão Novo atalho .
  3. Selecione Microsoft OneLake. Selecione um catálogo. Este é o item de dados que você criou nas etapas anteriores. Em seguida, selecione Seguinte.
  4. Selecione tabelas dentro do esquema e selecione Avançar.
  5. Selecione Criar.
  6. Os atalhos agora estão disponíveis em sua Lakehouse para usar com seus outros dados da Lakehouse. Você também pode usar o Notebooks e o Spark para executar o processamento de dados nos dados dessas tabelas de catálogo que você adicionou do seu espaço de trabalho do Azure Databricks.

Criar um modelo semântico

Você pode criar um modelo semântico do Power BI com base em seu item espelhado e adicionar/remover tabelas manualmente. Para obter mais informações sobre como criar e gerenciar modelos semânticos, consulte Criar um modelo semântico do Power BI.

Para obter a melhor experiência, é recomendável usar o Microsoft Edge Browser para tarefas de modelagem semântica.

Gerenciar suas relações de modelo semântico

Depois de criar um novo modelo semântico com base em seu banco de dados espelhado,

  1. Selecione Layouts de modelo no Explorer em seu espaço de trabalho.
  2. Depois que os layouts de modelo são selecionados, você recebe um gráfico das tabelas que foram incluídas como parte do Modelo Semântico.
  3. Para criar relações entre tabelas, arraste um nome de coluna de uma tabela para outro nome de coluna de outra tabela. Um pop-up é apresentado para identificar a relação e cardinalidade para as tabelas.

Habilite o acesso de segurança de rede para sua conta do Azure Data Lake Storage Gen2

Esta seção o orienta na configuração da segurança de rede para sua conta Gen2 do Azure Data Lake Storage (ADLS), quando um firewall do Armazenamento do Azure é configurado. 

Pré-requisitos

  • Crie ou use um espaço de trabalho existente do Azure Databricks com o Unity Catalog habilitado.
  • Para habilitar o tipo de autenticação de identidade do espaço de trabalho (recomendado), o espaço de trabalho Malha deve estar associado a qualquer capacidade F. Para criar uma identidade de espaço de trabalho, consulte Autenticar com identidade de espaço de trabalho.
  • Esta seção é para alcançar uma conta de armazenamento Gen2 do Azure Data Lake Storage (ADLS) atrás de um firewall do Armazenamento do Azure. O armazenamento do espaço de trabalho do Azure Databricks atrás de um firewall do Armazenamento do Azure não é suportado.
  • Um catálogo deve ser associado a uma única conta de armazenamento.

Habilitar acesso de segurança de rede

  1. Ao criar um novo Catálogo Espelhado do Azure Databricks, na etapa Escolher dados , selecione a guia Segurança de Rede .

    Captura de ecrã do separador Segurança de Rede no Databricks.

  2. Selecione uma conexão existente com a conta de armazenamento, se você tiver uma configurada. 

    • Se você não tiver uma conexão ADLS existente, crie uma nova conexão.  
    • A URL do ponto de extremidade de armazenamento é onde os dados do catálogo selecionado são armazenados. O ponto de extremidade deve ser a pasta específica onde os dados são armazenados, em vez de especificar o ponto de extremidade a ser no nível da conta de armazenamento. Por exemplo, fornecer https://<storage account>.dfs.core.windows.net/container1/folder1 em vez de https://<storage account>.dfs.core.windows.net/.
    • Forneça as credenciais de conexão. Os tipos de autenticação suportados são Conta organizacional, Entidade de serviço e Identidade do espaço de trabalho (recomendado).
  3. No portal do Azure, forneça direitos de acesso à conta de armazenamento com base no tipo de autenticação escolhido na etapa anterior. Navegue até a conta de armazenamento no portal do Azure. Selecione Controle de acesso (IAM). Selecione +Adicionar e Adicionar atribuição de função. Para obter mais informações, consulte Atribuir funções do Azure utilizando o portal do Azure.

    • Se você especificou a conta de armazenamento como parte da conexão, o objeto de autenticação escolhido precisa ter a função Leitor de Dados de Blob de Armazenamento na conta de armazenamento. 
    • Se você especificou um contêiner específico como parte da conexão, o objeto de autenticação escolhido precisa ter a função Leitor de Dados de Blob de Armazenamento no contêiner.  
    • Se você especificou uma pasta específica dentro de um contêiner (recomendado), o objeto de autenticação escolhido precisa ter a leitura (R) e a execução (E) no nível da pasta. Se você estiver usando a Entidade de Serviço ou a Identidade do Espaço de Trabalho como o tipo de autenticação, precisará conceder a essa Entidade de Serviço ou Executar Identidade do Espaço de Trabalho permissões para a pasta raiz do contêiner e para cada pasta na hierarquia de pastas que levam à pasta que você especificou. 

    Para obter mais informações e etapas para conceder acesso ADLS, consulte Controle de acesso ADLS.

  4. Habilite o Acesso ao Espaço de Trabalho Confiável para acessar contas Gen2 do Azure Data Lake Storage (ADLS) habilitadas para firewall de maneira segura. O acesso ao espaço de trabalho confiável requer a criação de uma conexão diretamente com a conta de armazenamento ADLS, que pode ser usada independentemente da conexão do espaço de trabalho do Azure Databricks. Para obter mais informações, consulte Bancos de dados espelhados do Secure Fabric do Azure Databricks.

  5. Um atalho para tabelas do Catálogo Unity é criado para as tabelas cujo nome da conta de armazenamento corresponde à conta de armazenamento especificada na conexão ADLS. Para quaisquer tabelas cujo nome da conta de armazenamento não corresponda à conta de armazenamento especificada na conexão ADLS, os atalhos para essas tabelas não serão criados. 

Importante

Se você planeja usar a conexão ADLS fora dos cenários de item de catálogo do Azure Databricks espelhado, também precisará atribuir a função de Delegador de Blob de Armazenamento na conta de armazenamento.

Habilitar a segurança do OneLake no item Databricks espelhados

Mapeie as políticas do Unity Catalog (UC) para a segurança do Microsoft OneLake seguindo estas etapas:

  1. Sincronize o Grupo Entra e aplique permissões no Unity Catalog. No Azure Databricks, use o Gerenciamento Automático de Identidades para sincronizar um grupo de ID do Microsoft Entra e conceda a ele os privilégios necessários do Catálogo Unity, por exemplo, USE, BROWSE, SELECT no catálogo/tabelas relevantes.
  2. Atribua uma função de acesso a dados do OneLake. No espaço de trabalho Malha, crie uma função de acesso a dados para os dados recém-espelhados. Adicione o mesmo grupo Entra a esta função e conceda-lhe acesso de leitura aos atalhos do OneLake correspondentes às tabelas do Azure Databricks. Você pode começar a usar a segurança no nível da tabela imediatamente no botão Gerenciar segurança do OneLake na faixa de opções. Certifique-se de manter as configurações de acesso sincronizadas à medida que as estruturas e permissões do catálogo evoluem. Para obter mais informações, consulte o modelo de controle de acesso a dados do OneLake (visualização).