Criar pipelines com dlt-meta

Este artigo apresenta o dlt-meta, um projeto do Databricks Labs que fornece ferramentas para gerar pipelines de metadados que você mantém.

Observação

O projeto dlt-meta de software livre, como todos os projetos na conta do GitHub do databrickslabs, existe apenas para fins de exploração. O Azure Databricks não dá suporte a ele nem fornece SLAs (contratos de nível de serviço) para ele. Não envie tíquetes de suporte do Azure Databricks para problemas relacionados a este projeto. Em vez disso, registre um problema do GitHub, que será revisado conforme o tempo permitir.

O que é dlt-meta?

O Lakeflow Spark Declarative Pipelines permite que você especifique declarativamente uma tabela e gere um fluxo em um pipeline que cria a tabela e a mantém atualizada conforme os dados de origem são alterados. No entanto, se sua organização tiver centenas de tabelas, gerar e gerenciar esses pipelines será demorado e poderá levar a práticas inconsistentes.

O projeto dlt-meta é uma estrutura de metaprogramação orientada por metadados projetada para trabalhar com o Lakeflow Spark Declarative Pipelines. Essa estrutura permite a automação de pipelines de dados bronze e silver aproveitando metadados registrados em um conjunto de arquivos JSON e YAML. O mecanismo dlt-meta usa código Python para gerar dinamicamente o código do pipeline para os fluxos descritos em seus metadados. Você gera os metadados sobre seus pipelines e o dlt-meta gera seus pipelines.

Com sua lógica centralizada em um só lugar (os metadados), seu sistema é mais rápido, reutilizável e mais fácil de manter.

Observação

O projeto dlt-meta foi nomeado em homenagem ao recurso mais antigo Delta Live Tables no Azure Databricks. As Tabelas Dinâmicas Delta foram substituídas pelo Lakeflow Spark Declarative Pipelines e o dlt-meta funciona com o Lakeflow Spark Declarative Pipelines.

Benefícios do dlt-meta

Há dois casos de uso principais para dlt-meta:

Ingerir e limpar um grande número de tabelas simplesmente.
Impor padrões de engenharia de dados em vários pipelines e usuários.

Os benefícios de usar uma abordagem orientada por metadados incluem:

A manutenção de metadados pode ser feita sem conhecimento do código Python ou SQL.
Manter metadados, em vez do código, requer menos sobrecarga e reduz erros.
O código é gerado pelo dlt-meta, portanto, ele permanece consistente e tem menos código personalizado entre pipelines e tabelas publicadas.
Você pode agrupar facilmente tabelas em pipelines dentro dos metadados, gerando o número de pipelines necessários para atualizar seus dados com mais eficiência.

Como funciona?

A imagem a seguir mostra uma visão geral do sistema dlt-meta:

Visão geral do dlt-meta

Você cria os arquivos de metadados como entrada para dlt-meta, para especificar seus arquivos e saídas de origem, regras de qualidade e processamento necessário.
O mecanismo dlt-meta compila os arquivos de integração em uma especificação de fluxo de dados, chamada DataflowSpec e os armazena para uso posterior.
O mecanismo dlt-meta usa o DataflowSpec para criar pipelines que geram suas tabelas bronze. Isso usa seus arquivos de metadados para ler os dados de origem e aplicar as expectativas de dados corretas para corresponder às regras de qualidade.
Em seguida, o mecanismo dlt-meta usa o DataflowSpec para criar pipelines adicionais que geram suas tabelas de prata. Isso usa seus arquivos de metadados para aplicar as transformações apropriadas e outros processamentos para seu sistema.

Você executa os pipelines gerados pelo dlt-meta para manter a saída atual à medida que os dados de origem são atualizados.

Como começar?

Para usar dlt-meta, você deve:

Implante e configure a solução dlt-meta.
Prepare os metadados para suas tabelas de camadas bronze e prata.
Crie um trabalho para integrar os metadados.
Use os metadados para criar pipelines para suas tabelas.

A documentação do dlt-meta no GitHub tem um tutorial para ajudá-lo a começar esse processo. Para obter mais informações, consulte introdução ao dlt-meta no GitHub.

Recursos adicionais

Comentários

Esta página foi útil?

Last updated on 2025-11-11

Compartilhar via

Criar pipelines com dlt-meta

O que é dlt-meta?

Benefícios do dlt-meta

Como funciona?

Como começar?

Recursos adicionais

Comentários

Recursos adicionais