Compartilhar via


Transformar dados executando um notebook do Synapse

Use a atividade notebook para executar notebooks criados no Microsoft Fabric como parte dos pipelines do Data Factory. Os notebooks permitem executar trabalhos do Apache Spark para trazer, limpar ou transformar seus dados como parte de seus fluxos de trabalho de dados. É fácil adicionar uma atividade do Notebook aos pipelines no Fabric e este guia orienta você em cada etapa.

Pré-requisitos

Para começar, você deve concluir os seguintes pré-requisitos:

Criar uma atividade de notebook

  1. Crie um pipeline no seu workspace.

  2. Procure por Notebook no painel Atividades do pipeline e arraste uma atividade de Pesquisa para a tela do pipeline.

    Captura de tela da interface do usuário do Fabric com o painel Atividades e a atividade do Notebook realçada.

  3. Selecione a nova atividade Notebook na tela se ela ainda não estiver selecionada.

    Captura de tela mostrando a guia Configurações gerais da atividade do Notebook.

    Consulte as diretrizes de Configurações Geraispara definir a guia Configurações Gerais.

Configurar as configurações do notebook

Selecione a guia Configurações.

Em Conexão, selecione o método de autenticação para a execução do notebook e forneça as credenciais necessárias ou a configuração de identidade com base em sua seleção:

  • Principal de Serviço (SPN) – Recomendado para cenários de produção para garantir a execução segura e automatizada sem depender das credenciais do usuário.
  • Identidade do Workspace (WI) – Ideal para ambientes gerenciados em que a governança de identidade centralizada é necessária.

Selecione um notebook existente na lista suspensa Notebook e, opcionalmente, especifique quaisquer parâmetros a serem passados para o notebook.

Captura de tela mostrando a guia Configurações gerais da atividade Notebook. Captura de tela mostrando a guia Configurações do notebook destacando a guia, onde escolher um notebook e onde adicionar parâmetros.

Usando a Identidade de Workspace do Fabric (WI) na atividade de notebook

  1. Criar a identidade do workspace Você deve habilitar a WI em seu workspace (isso pode levar um momento para ser carregado). Crie uma Identidade de Espaço de Trabalho no espaço de trabalho do Fabric. Confira a documentação sobre a Identidade do Workspace.

  2. Habilitar configurações no nível do locatário No portal de administração do Fabric, habilite a seguinte configuração de locatário: as entidades de serviço podem chamar APIs públicas do Fabric. Essa configuração é necessária para que a Identidade do Workspace seja autenticada com êxito. Confira os documentos sobre habilitar a autenticação da entidade de serviço para APIs de administrador.

  3. Conceder permissões do espaço de trabalho à Identidade do Espaço de Trabalho Abra o espaço de trabalho, selecione a opção Gerenciar acesso e atribua permissões à Identidade do Espaço de Trabalho. O acesso de colaborador é suficiente para a maioria das situações. Confira a documentação em Conceder aos usuários acesso aos workspaces.

Definir etiqueta de sessão

Para minimizar o tempo necessário para executar o trabalho do notebook, você pode, opcionalmente, definir uma marca de sessão. Definir a marca de sessão instrui o Spark a reutilizar qualquer sessão do Spark existente, minimizando o tempo de inicialização. Qualquer valor de cadeia de caracteres arbitrária pode ser usado para a marca de sessão. Se nenhuma sessão existir, uma nova será criada usando o valor do tag.

Captura de tela mostrando a guia Configurações do notebook realçando a guia, onde adicionar a marca de sessão.

Observação

Para poder usar a marca de sessão, o modo Alta simultaneidade para o pipeline que executa várias opções de notebooks deve ser ativado. Essa opção pode ser encontrada no modo Alta simultaneidade para as configurações do Spark nas configurações do Workspace

Captura de tela mostrando a guia Configurações do workspace realçando a guia, onde habilitar o modo alta simultaneidade para os pipelines que executam vários notebooks.

Salvar e executar ou agendar o pipeline

Alterne para a guia Página Inicial na parte superior do editor de pipeline e selecione o botão Salvar para salvar o pipeline. Selecione Executar para executá-lo diretamente ou Agendar para agendá-lo. Você também pode exibir o histórico de execuções aqui ou definir outras configurações.

Captura de tela mostrando a guia Início no editor de pipeline com o nome da guia e os botões Salvar, Executar e Agendar realçados.