Configurar o tamanho do lote de Streaming Estruturado no Azure Databricks

Este artigo explica como usar controles de admissão para manter um tamanho de lote consistente para consultas de streaming.

Os controles de admissão limitam a taxa de entrada para consultas de streaming estruturado, o que pode ajudar a manter um tamanho de lote consistente e impedir que grandes lotes causem transbordo e atrasos em cascata no processamento de microlote.

O Azure Databricks fornece as mesmas opções para controlar os tamanhos de lote de Streaming Estruturado para Delta Lake e Carregador Automático.

Observação

Você pode modificar as configurações de controle de admissão sem redefinir o ponto de verificação para uma consulta de streaming. Consulte Recuperar após alterações em uma consulta de Streaming Estruturado.

Alterar as configurações de controle de admissão para aumentar ou diminuir o tamanho do lote tem implicações de desempenho. Para otimizar sua carga de trabalho, talvez seja necessário ajustar as configurações de computação.

Limitar a taxa de entrada com maxFilesPerTrigger

Definir maxFilesPerTrigger (ou cloudFiles.maxFilesPerTrigger para Carregador Automático) especifica um limite superior para o número de arquivos processados em cada microlote. Para Delta Lake e Carregador Automático, o padrão é 1000. (Observe que essa opção também está presente no Apache Spark para outras fontes de arquivo, em que não há nenhum máximo por padrão.)

Limitar a taxa de entrada com maxBytesPerTrigger

Definir maxBytesPerTrigger (ou cloudFiles.maxBytesPerTrigger para Carregador Automático) define um "máximo suave" para a quantidade de dados processados em cada microlote. Isso significa que um lote processa aproximadamente essa quantidade de dados e pode processar mais do que o limite para fazer a consulta de streaming avançar em casos em que a menor unidade de entrada for maior que esse limite. Não há nenhum padrão para essa configuração.

Por exemplo, se você especificar uma cadeia de caracteres de bytes, como 10g para limitar cada microbatch a 10 GB de dados e tiver arquivos com 3 GB cada, o Azure Databricks processará 12 GB em uma microbatch.

Definindo várias taxas de entrada juntas

Se você usar maxBytesPerTrigger em conjunto com maxFilesPerTrigger, o microlote processará dados até atingir o limite inferior de maxFilesPerTrigger ou maxBytesPerTrigger.

Limitando as taxas de entrada para outras fontes de streaming estruturadas

Fontes de streaming, como o Apache Kafka, têm limites de entrada personalizados, como maxOffsetsPerTrigger. Para obter mais detalhes, consulte conectores Standard no Lakeflow Connect.

Comentários

Esta página foi útil?

Last updated on 2025-05-09