Partilhar via


Transformar dados executando um bloco de anotações

Use a atividade de Notebooks para executar notebooks que criar no Microsoft Fabric nos pipelines do Data Factory. Os blocos de anotações permitem que você execute trabalhos do Apache Spark para trazer, limpar ou transformar seus dados como parte de seus fluxos de trabalho de dados. É fácil adicionar uma atividade do Bloco de Anotações aos seus pipelines no Fabric, e este guia orienta você em cada etapa.

Pré-requisitos

Para começar, você deve preencher os seguintes pré-requisitos:

Criar uma atividade do bloco de notas

  1. Crie um novo pipeline em seu espaço de trabalho.

  2. Procure Bloco de Anotações no painel Atividades do pipeline e selecione-o para adicioná-lo à tela do pipeline.

    Captura de tela da interface do usuário do Fabric com o painel Atividades e a atividade do Bloco de Anotações realçados.

  3. Selecione a nova atividade do Bloco de Anotações na tela se ela ainda não estiver selecionada.

    Captura de ecrã a mostrar o separador Definições gerais da atividade Bloco de Notas.

    Consulte as orientações de configurações gerais para configurar a guia Configurações gerais.

Configurar definições do notebook

Selecione a guia Configurações .

Em Conexão, selecione o método de autenticação para a execução do caderno e forneça as credenciais necessárias ou a configuração de identidade com base na sua escolha:

  • Service Principal (SPN) – Recomendado para cenários de produção para garantir execução segura e automatizada sem depender das credenciais do utilizador.
  • Identidade de Espaço de Trabalho (WI) – Ideal para ambientes geridos onde é necessária uma governação centralizada de identidades.

Selecione um Notebook existente na lista suspensa e, opcionalmente, especifique parâmetros a serem passados para o notebook.

Captura de ecrã a mostrar o separador Definições do Bloco de Notas a realçar o separador, onde escolher um bloco de notas e onde adicionar parâmetros.

Utilização da Identidade do Espaço de Trabalho do Fabric (WI) na atividade do Notebook

  1. Criar a Identidade do Espaço de Trabalho Deve ativar o WI no seu espaço de trabalho (isto pode demorar algum tempo a carregar). Crie uma Identidade de Espaço de Trabalho no seu espaço de trabalho Fabric. Consulta a documentação sobre o Workspace Identity.

  2. Ativar definições ao nível do inquilino No portal de administração do Fabric, ative a seguinte definição de inquilino: Os princípios de serviço podem chamar APIs públicas do Fabric. Esta configuração é necessária para que a Identidade do Espaço de Trabalho se autentique com sucesso. Consulta a documentação sobre Ativar autenticação do principal de serviço para APIs de administrador.

  3. Conceder permissões de espaço de trabalho à Identidade do Espaço de Trabalho Abra o espaço de trabalho, selecione Gerir acesso e atribua permissões à Identidade do Espaço de Trabalho. O acesso dos colaboradores é suficiente para a maioria dos cenários. Consulta a documentação sobre Dar acesso aos utilizadores aos espaços de trabalho.

Definir tag de sessão

Para minimizar o tempo necessário para executar o trabalho do bloco de anotações, você pode, opcionalmente, definir uma tag de sessão. A configuração da tag session instrui o Spark a reutilizar qualquer sessão existente do Spark, minimizando o tempo de inicialização. Qualquer valor de cadeia de caracteres arbitrário pode ser usado para a tag session. Se nenhuma sessão existir, uma nova será criada usando o valor da tag.

Captura de ecrã a mostrar o separador Definições do Bloco de Notas a realçar o separador, onde adicionar etiqueta de sessão.

Nota

Para poder usar a tag de sessão, a opção Modo de simultaneidade alta para pipeline executando vários blocos de anotações deve estar ativada. Esta opção pode ser encontrada no modo de simultaneidade alta para as configurações do Spark nas configurações do espaço de trabalho

Captura de tela mostrando a guia Configurações do espaço de trabalho destacando a guia, onde habilitar o modo de alta simultaneidade para pipelines que executam vários blocos de anotações.

Salvar e executar ou agendar o pipeline

Alterne para a guia Página Inicial na parte superior do editor de pipeline e selecione o botão Salvar para salvar seu pipeline. Selecione Executar para executá-lo diretamente ou Agendar para agendá-lo. Você também pode visualizar o histórico de execução aqui ou definir outras configurações.

Captura de tela mostrando a guia Página Inicial no editor de pipeline com os botões Nome da guia, Salvar, Executar e Agendar realçados.