Compartilhar via


Dataflow Gen2 com CI/CD e integração do Git

O Dataflow Gen2 dá suporte à integração contínua/implantação contínua (CI/CD) e à integração do Git. Você pode criar, editar e gerenciar fluxos de dados em um repositório Git conectado ao workspace do Fabric. Utilize pipelines de implantação para automatizar a movimentação de fluxos de dados entre espaços de trabalho. Este artigo explica como usar esses recursos no Fabric Data Factory.

Features

O Dataflow Gen2 com CI/CD e integração do Git oferece uma variedade de recursos para simplificar seu fluxo de trabalho. Veja o que você pode fazer com estes recursos:

  • Integre o Git ao Dataflow Gen2.
  • Automatize a implantação de fluxo de dados entre workspaces usando pipelines de implantação.
  • Atualize e edite as configurações do Dataflow Gen2 com as ferramentas do Fabric.
  • Crie o Dataflow Gen2 diretamente em uma pasta de workspace.
  • Use APIs públicas (versão prévia) para gerenciar o Dataflow Gen2 com integração de CI/CD e Git.

Pré-requisitos

Antes de começar, certifique-se de:

Criar um Dataflow Gen2 com integração de CI/CD e Git

A criação de um Dataflow Gen2 com CI/CD e integração do Git permite que você gerencie seus fluxos de dados com eficiência em um repositório Git conectado. Siga estas etapas para iniciar:

  1. No workspace do Fabric, selecione Criar novo item e, em seguida, selecione Fluxo de Dados Gen2.

    Captura de tela da janela Novo item com o item Dataflow Gen2 enfatizado.

  2. Nomeie seu fluxo de dados, habilite a integração do Git e selecione Criar.

    Captura de tela da janela Novo Fluxo de Dados Gen2 com o conjunto de nomes de fluxo de dados e a integração do Git enfatizada e selecionada.

    O fluxo de dados é aberto na tela de criação, na qual você pode começar a criar seu fluxo de dados.

  3. Quando terminar, selecione Salvar e executar.

  4. Após a publicação, o fluxo de dados mostra um status "não comprometido".

    Captura de tela do Dataflow Gen2 salvo com o status mostrado como não confirmado.

  5. Para confirmar o fluxo de dados no Git, selecione o ícone de controle do código-fonte no canto superior direito.

    Captura de tela do botão Controle de origem.

  6. Selecione as alterações a serem confirmadas e, em seguida, selecione Confirmar.

    Captura de tela da janela Controle de origem com o fluxo de dados selecionado e o botão Confirmar enfatizado.

O Dataflow Gen2 com CI/CD e integração do Git está pronto. Para obter as práticas recomendadas, consulte o Cenário 2 – Desenvolver usando outro espaço de trabalho.

Atualizar um Fluxo de Dados Gen2

Atualizar um Dataflow Gen2 garante que seus dados sejam up-to-date. Você pode atualizar manualmente ou configurar uma agenda para automatizar o processo.

Atualizar agora

  1. No workspace do Fabric, selecione os três pontinhos ao lado do fluxo de dados.

  2. Selecione Atualizar agora.

    Captura de tela do menu suspenso Mais opções com a opção Atualizar agora enfatizada.

Agendar uma atualização

  1. No workspace do Fabric, selecione os três pontinhos ao lado do fluxo de dados.

  2. Selecione Agendamento.

    Captura de tela do menu suspenso Mais opções com a opção Agendar enfatizada.

  3. Na página de agendamento, defina a frequência de atualização, a hora de início e a hora de término. Aplicar alterações.

    Captura de tela das configurações do fluxo de dados com a guia Agendar selecionada e o botão Atualizar enfatizado.

  4. Para atualizar imediatamente, selecione Atualizar.

Exibir histórico e configurações de atualização

Entender o histórico de atualizações e as configurações de gerenciamento ajuda você a monitorar e controlar o Dataflow Gen2. Veja como você pode acessar essas opções.

Para exibir o histórico de atualizações, selecione a guia de execuções recentes no menu suspenso ou vá para o hub de monitoramento e selecione o fluxo de dados.

Acesse as configurações do fluxo de dados selecionando o ícone de reticências ao lado do fluxo de dados e escolhendo Configurações.

Salvar substitui a publicação

A operação de salvar no Dataflow Gen2 com CI/CD e integração com o Git publica automaticamente as alterações, simplificando o fluxo de trabalho.

Salvar um Dataflow Gen2 publica automaticamente as alterações. Se você quiser descartar alterações, selecione Descartar alterações ao fechar o editor.

Validação

Ao salvar, o sistema verifica se o fluxo de dados é válido. Caso contrário, um erro aparecerá na visualização do espaço de trabalho. A validação executa uma avaliação de "linha zero", que verifica esquemas de consulta sem retornar linhas. Se o esquema de uma consulta não puder ser determinado dentro de 10 minutos, a avaliação falhará. Se a validação falhar, o sistema usará a última versão salva para atualizações.

Publicação na hora certa

A publicação just-in-time garante que suas alterações estejam disponíveis quando necessário. Esta seção explica como o sistema lida com a publicação durante atualizações e outras operações.

O Dataflow Gen2 usa um modelo de publicação automatizado "just-in-time". Quando você salva um fluxo de dados, as alterações ficam imediatamente disponíveis para a próxima atualização ou execução. Sincronizar alterações do Git ou usar pipelines de implantação salva o fluxo de dados atualizado em seu workspace. A próxima atualização tenta publicar a versão salva mais recente. Se a publicação falhar, o erro será exibido no histórico de atualização.

Quando você atualiza um fluxo de dados, há uma opção (Run On Demand Execute na API REST de Trabalhos em Segundo Plano) que controla se a publicação é realizada. O padrão para esta opção ApplyChangesIfNeeded é verdadeiro, que aciona uma publicação somente se a fonte tiver sido alterada desde a última publicação. Isso aborda cenários em que os usuários precisavam disparar manualmente uma publicação ao fazer alterações por meio de CI/CD ou API.

Em alguns casos, o back-end republica automaticamente os fluxos de dados durante as atualizações para garantir a compatibilidade com as atualizações.

Anteriormente, se a publicação falhar, a atualização será executada usando a última versão publicada com êxito do fluxo de dados. Com a publicação just-in-time, a atualização falhará se:

  • O fluxo de dados foi salvo pela última vez após 1º de fevereiro de 2026 e
  • A publicação falha (mesmo que tenha havido uma publicação bem-sucedida no passado).

Isso impede cenários em que os clientes, sem saber, executam versões desatualizadas de um fluxo de dados. Ele garante que o que é mostrado no editor corresponda ao que é executado.

As APIs também estão disponíveis para atualizar um fluxo de dados sem publicar ou disparar manualmente a publicação.

Limitações e problemas conhecidos

Embora o Dataflow Gen2 com CI/CD e integração do Git seja poderoso, há algumas limitações e problemas conhecidos que devem ser considerados. Aqui está o que você precisa saber.

  • Quando você exclui o último Fluxo de Dados Gen2 com suporte a CI/CD e Git, os itens de estágio ficam visíveis no workspace e podem ser excluídos com segurança pelo usuário.
  • O modo de exibição do workspace não mostra o seguinte: indicação de atualização em andamento, última atualização, próxima atualização e indicação de falha de atualização.
  • Quando o fluxo de dados falha ao atualizar, não há suporte para enviar automaticamente uma notificação de falha. Como solução alternativa, você pode aproveitar os recursos de orquestração de pipelines.
  • Ao ramificar para outro espaço de trabalho, uma atualização do Fluxo de Dados Gen2 pode falhar com a mensagem de que o lakehouse de preparo não pôde ser encontrado. Quando isso acontecer, crie um novo Fluxo de Dados Gen2 com suporte de CI/CD e Git no espaço de trabalho para disparar a criação do lakehouse de preparo. Depois disso, todos os outros fluxos de dados no espaço de trabalho devem começar a funcionar novamente.
  • Ao sincronizar alterações do GIT no workspace ou usar pipelines de implantação, você precisará abrir o fluxo de dados novo ou atualizado e salvar as alterações manualmente com o editor. Isso dispara uma ação de publicação em segundo plano para permitir que as alterações sejam usadas durante a atualização do fluxo de dados. Você também pode usar a chamada à API de publicação de trabalho on-demand do Dataflow para automatizar a operação de publicação.
  • O conector do Power Automate para fluxos de dados não está funcionando com o novo Dataflow Gen2 com suporte a CI/CD e Git.