Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Este artigo fornece uma introdução ao Streaming Estruturado no Azure Databricks.
O que é Structured Streaming?
O Apache Spark Structured Streaming é um mecanismo de processamento quase em tempo real que oferece tolerância a falhas de ponta a ponta com garantias de processamento exato uma vez usando as APIs familiares do Spark. O Streaming Estruturado permite expressar a computação em dados de streaming da mesma forma que expressa uma computação em lote em dados estáticos. O mecanismo de streaming estruturado executa o cálculo de forma incremental e atualiza continuamente o resultado à medida que os dados de streaming chegam.
Ler a partir de um fluxo de dados
Você pode usar o Streaming Estruturado para ingerir dados incrementalmente de fontes de dados suportadas. As fontes de dados comuns incluem o seguinte:
- Arquivos de dados no armazenamento de objetos na nuvem. Consulte O que é Auto Loader?.
- Mensagens de ônibus e filas. Consulte Conectores padrão no Lakeflow Connect.
- Lago Delta. Consulte leitura e escrita de streaming em tabelas Delta.
Cada fonte de dados fornece várias opções para especificar como carregar lotes de dados. Durante a configuração do leitor, talvez seja necessário configurar opções para fazer o seguinte:
- Especifique a fonte de dados ou o formato (por exemplo, tipo de arquivo, delimitadores e esquema).
- Configure o acesso aos sistemas de origem (por exemplo, configurações de porta e credenciais).
- Especifique por onde começar num fluxo de dados (por exemplo, offsets do Kafka ou ler todos os ficheiros existentes).
- Controle a quantidade de dados processados em cada lote (por exemplo, deslocamentos máximos, arquivos ou bytes por lote). Consulte Configurar tamanho do lote de Streaming Estruturado no Azure Databricks.
Gravar num destino de dados
Um receptor de dados é o destino de uma operação de escrita em fluxo contínuo. Os destinos de dados comuns usados em cargas de trabalho de streaming do Azure Databricks incluem o seguinte:
- Lago Delta
- Barramentos de mensagens e filas
- Bancos de dados de chave-valor
Assim como acontece com as fontes de dados, a maioria dos coletores de dados fornece várias opções para controlar como os dados são gravados no sistema de destino. Durante a configuração do escritor, especifique as seguintes opções:
- Modo de saída (acrescentar por padrão). Consulte para selecionar um modo de saída para o Structured Streaming.
- Um local de ponto de verificação (obrigatório para cada gravador). Consulte Pontos de verificação de streaming estruturado.
- Intervalos de gatilho. Consulte Configurar intervalos de gatilho de Streaming Estruturado.
- Opções que especificam o coletor de dados ou formato (por exemplo, tipo de arquivo, delimitadores e esquema).
- Opções que configuram o acesso aos sistemas de destino (por exemplo, configurações de porta e credenciais).