Partilhar via


Conceitos de Streaming Estruturado

Este artigo fornece uma introdução ao Streaming Estruturado no Azure Databricks.

O que é Structured Streaming?

O Apache Spark Structured Streaming é um mecanismo de processamento quase em tempo real que oferece tolerância a falhas de ponta a ponta com garantias de processamento exato uma vez usando as APIs familiares do Spark. O Streaming Estruturado permite expressar a computação em dados de streaming da mesma forma que expressa uma computação em lote em dados estáticos. O mecanismo de streaming estruturado executa o cálculo de forma incremental e atualiza continuamente o resultado à medida que os dados de streaming chegam.

Ler a partir de um fluxo de dados

Você pode usar o Streaming Estruturado para ingerir dados incrementalmente de fontes de dados suportadas. As fontes de dados comuns incluem o seguinte:

Cada fonte de dados fornece várias opções para especificar como carregar lotes de dados. Durante a configuração do leitor, talvez seja necessário configurar opções para fazer o seguinte:

  • Especifique a fonte de dados ou o formato (por exemplo, tipo de arquivo, delimitadores e esquema).
  • Configure o acesso aos sistemas de origem (por exemplo, configurações de porta e credenciais).
  • Especifique por onde começar num fluxo de dados (por exemplo, offsets do Kafka ou ler todos os ficheiros existentes).
  • Controle a quantidade de dados processados em cada lote (por exemplo, deslocamentos máximos, arquivos ou bytes por lote). Consulte Configurar tamanho do lote de Streaming Estruturado no Azure Databricks.

Gravar num destino de dados

Um receptor de dados é o destino de uma operação de escrita em fluxo contínuo. Os destinos de dados comuns usados em cargas de trabalho de streaming do Azure Databricks incluem o seguinte:

  • Lago Delta
  • Barramentos de mensagens e filas
  • Bancos de dados de chave-valor

Assim como acontece com as fontes de dados, a maioria dos coletores de dados fornece várias opções para controlar como os dados são gravados no sistema de destino. Durante a configuração do escritor, especifique as seguintes opções: