Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
A computação sem servidor para fluxos de trabalho permite que você execute seu trabalho sem configurar e implantar a infraestrutura. Com a computação sem servidor, você se concentra na implementação de pipelines de processamento de dados e análise, e o Azure Databricks gerencia com eficiência os recursos de computação, incluindo a otimização e o dimensionamento da computação para suas cargas de trabalho. O escalonamento automático e o Photon são habilitados automaticamente para os recursos de computação que executam seu trabalho.
A computação sem servidor para fluxos de trabalho otimiza automática e continuamente a infraestrutura, como tipos de instância, memória e mecanismos de processamento, para garantir o melhor desempenho com base nos requisitos de processamento específicos de suas cargas de trabalho.
O Databricks atualiza automaticamente a versão do Databricks Runtime para dar suporte a aprimoramentos e atualizações para a plataforma, garantindo a estabilidade de seus trabalhos. Para ver a versão atual do Databricks Runtime usada pela computação sem servidor para fluxos de trabalho, veja Notas de versão da computação sem servidor.
Como a permissão de criação de cluster não é necessária, todos os usuários do workspace podem usar a computação sem servidor para executar seus fluxos de trabalho.
Este artigo descreve como usar a interface do usuário do Lakeflow Jobs para criar e executar trabalhos que usam computação sem servidor. Você também pode automatizar a criação e execução de trabalhos que usam computação sem servidor com a API Jobs, Databricks Asset Bundles e o SDK do Databricks para Python.
- Para saber mais sobre como usar a API Jobs para criar e executar jobs que usam computação sem servidor, veja Jobs na referência da API REST.
- Para saber mais sobre como usar pacotes de ativos do Databricks para criar e executar trabalhos que usam computação sem servidor, consulte Desenvolver um trabalho com pacotes de ativos do Databricks.
- Para saber mais sobre como usar o SDK do Databricks para Python para criar e executar trabalhos que usam computação sem servidor, veja SDK do Databricks para Python.
Requisitos
- O seu espaço de trabalho Azure Databricks deve ter o Catálogo Unity habilitado.
- Como a computação sem servidor para fluxos de trabalho usa o modo de acesso padrão, suas cargas de trabalho devem dar suporte a esse modo de acesso.
- Seu workspace do Databricks deve estar em uma região com suporte para computação sem servidor. Consulte Recursos com disponibilidade regional limitada.
Crie um trabalho usando computação sem servidor
Observação
Como a computação sem servidor para fluxos de trabalho garante que recursos suficientes sejam provisionados para executar suas cargas de trabalho, você pode experimentar tempos de inicialização maiores ao executar um trabalho que exige grandes quantidades de memória ou inclui muitas tarefas.
A computação sem servidor é suportada com os tipos de tarefa notebook, script Python, dbt, wheel Python e JAR. Por padrão, a computação sem servidor é selecionada como o tipo de computação quando você cria um novo trabalho e adiciona um desses tipos de tarefas compatíveis.
Importante
O uso da computação sem servidor para tarefas JAR está em Beta.
A Databricks recomenda a utilização de computação sem servidor para todas as tarefas de trabalho. Você também pode especificar diferentes tipos de computação para tarefas em um trabalho, o que poderá ser necessário se um tipo de tarefa não for compatível com a computação sem servidor para fluxos de trabalho.
Para gerenciar conexões de rede de saída para seus trabalhos, consulte O que é o controle de saída sem servidor?
Configurar um trabalho existente para usar computação sem servidor
Você pode alternar um trabalho existente para usar computação sem servidor para tipos de tarefas compatíveis ao editar o trabalho. Para mudar para a computação sem servidor:
- No painel lateral Detalhes do trabalho, clique em Trocar em Calcular, clique em Novo, insira ou atualize quaisquer configurações e clique em Atualizar.
- Clique em
no menu suspenso Computação e selecione Sem servidor.
Agende um notebook usando computação sem servidor
Além de usar a UI Jobs para criar e agendar um trabalho usando computação sem servidor, você pode criar e executar um trabalho que usa computação sem servidor diretamente de um notebook do Databricks. Consulte Criar e gerenciar trabalhos agendados do notebook.
Selecione uma política de orçamento sem servidor para seu uso sem servidor
Importante
Esse recurso está em uma versão prévia.
As políticas de orçamento sem servidor permitem que sua organização aplique marcas personalizadas no uso sem servidor para atribuição de cobrança granular.
Se o seu espaço de trabalho usar políticas de orçamento sem servidor para atribuir o uso sem servidor, você poderá selecionar a política de orçamento sem servidor da sua tarefa usando a configuração de política de orçamento na interface do usuário dos detalhes da tarefa. Se você estiver atribuído apenas a uma política de orçamento sem servidor, a política será selecionada automaticamente para seus novos trabalhos.
Observação
Depois que você receber uma política de orçamento sem servidor, seus trabalhos existentes não serão marcados automaticamente com sua política. Você deve atualizar manualmente os trabalhos existentes se quiser anexar uma política a eles.
Para obter mais informações sobre políticas de orçamento sem servidor, consulte Uso de atributo com políticas de orçamento sem servidor.
Selecionar um modo de desempenho
Você pode escolher a rapidez com que as tarefas sem servidor do trabalho são executadas usando a configuração otimizada para desempenho na página de detalhes do trabalho.
Quando o desempenho otimizado é desabilitado, o trabalho usa o modo de desempenho padrão. Esse modo usa menos computação para reduzir custos, tornando-o adequado para cargas de trabalho que podem tolerar latência de inicialização ligeiramente maior de 4 a 6 minutos, dependendo da disponibilidade da computação e do agendamento otimizado.
Quando o desempenho otimizado estiver habilitado, o trabalho será iniciado e executado mais rapidamente. Esse modo foi projetado para cargas de trabalho sensíveis ao tempo.
Ambos os modos usam a mesma SKU, mas o modo de desempenho padrão consome menos DBUs, refletindo o menor uso de computação.
Para definir a configuração otimizada para desempenho na interface do usuário, um trabalho deve ter pelo menos uma tarefa sem servidor. Essa configuração afeta apenas as tarefas sem servidor dentro do trabalho.
Observação
Não há suporte para o modo de desempenho padrão para execuções pontuais criadas usando o runs/submit ponto de extremidade.
Definir parâmetros de configuração do Spark
Para automatizar a configuração do Spark na computação sem servidor, o Databricks permite definir apenas parâmetros específicos de configuração do Spark. Para obter a lista de parâmetros permitidos, consulte Parâmetros de configuração do Spark com suporte.
Você pode definir os parâmetros de configuração do Spark somente no nível da sessão. Para fazer isso, defina-os em um bloco de notas e adicione o bloco de notas a uma tarefa incluída no mesmo trabalho que usa os parâmetros. Veja Obtenha e defina propriedades de configuração do Apache Spark em um notebook.
Configurar ambientes e dependências
Para saber como instalar bibliotecas e dependências usando a computação sem servidor, consulte Configurar o ambiente sem servidor.
Configurar memória alta para tarefas de notebook
Importante
Esse recurso está em uma versão prévia.
Você pode configurar tarefas de notebook para usar um tamanho de memória mais alto. Para fazer isso, configure a configuração Memória no painel lateral Ambiente do bloco de anotações. Consulte Utilize computação sem servidor com alta memória.
A alta capacidade de memória só está disponível para tarefas de notebook.
Configure a otimização automática de computação sem servidor para proibir novas tentativas
A computação sem servidor para otimização automática de fluxos de trabalho otimiza automaticamente a computação usada para executar seus trabalhos e tenta executar novamente tarefas com falha. A otimização automática é habilitada por padrão e a Databricks recomenda deixá-la habilitada para garantir que cargas de trabalho críticas sejam executadas com êxito pelo menos uma vez. No entanto, se você tiver cargas de trabalho que devem ser executadas no máximo uma vez, por exemplo, trabalhos que não são idempotentes, você poderá desativar a otimização automática ao adicionar ou editar uma tarefa:
- Ao lado de Repetições, clique em Adicionar (ou
se já existir uma política de novas tentativas). - Na caixa de diálogo Retry Policy, desmarque Habilitar otimização automática sem servidor (pode incluir novas tentativas).
- Clique em Confirmar.
- Se você estiver adicionando uma tarefa, clique em Criar tarefa. Se você estiver editando uma tarefa, clique em Salvar tarefa.
Monitore o custo de trabalhos que usam computação sem servidor para fluxos de trabalho
Você pode monitorar o custo de trabalhos que usam computação sem servidor para fluxos de trabalho consultando a tabela do sistema de uso faturável. Essa tabela é atualizada para incluir atributos de usuário e carga de trabalho sobre custos sem servidor. Consulte Referência da tabela do sistema de uso faturável.
Para obter informações sobre os preços atuais e quaisquer promoções, consulte a página de preços do Workflows.
Exibir detalhes da consulta para execuções de tarefas
Você pode visualizar informações detalhadas sobre o tempo de execução para suas instruções Spark, como métricas e planos de consulta.
Para acessar os detalhes da consulta na interface de usuário de tarefas, use os passos a seguir:
Na barra lateral do workspace do Azure Databricks, clique em
Jobs & Pipelines .Opcionalmente, selecione o filtro Trabalhos .
Clique no Nome do trabalho que você deseja exibir.
Clique na execução específica que você deseja visualizar.
Clique em Linha do tempo para exibir a execução como uma linha do tempo, dividida em tarefas individuais.
Clique na seta ao lado do nome da tarefa para mostrar as instruções de consulta e seus tempos de execução.
Clique em uma instrução para abrir o painel de detalhes da consulta. Consulte Exibir detalhes da consulta para saber mais sobre as informações disponíveis neste painel.
Para exibir o histórico de consultas de uma tarefa:
- Na seção Computação do painel do lado de Execução da tarefa, clique no Histórico de consultas.
- Você é redirecionado para o Histórico de Consultas, pré-filtrado com base na ID de execução da tarefa em que você estava.
Para obter informações sobre como usar o histórico de consultas, consulte Acessar histórico de consultas para pipelines e Histórico de consultas.
Limitações
Para obter uma lista de limitações de computação sem servidor para fluxos de trabalho, veja Limitações de computação sem servidor nas notas de versão da computação sem servidor.