Partilhar via


Diagnosticar problemas de custo e desempenho usando a interface do usuário do Spark

Este guia orienta você sobre como usar a interface do usuário do Spark para diagnosticar problemas de custo e desempenho. É um guia passo a passo, e é um guia prático. Em vez de apenas fornecer uma explicação do que cada página na interface do usuário do Spark faz, ela informa o que procurar e o que significa. Se você não estiver familiarizado com os conceitos de driver, trabalhadores, executores, estágios e tarefas, convém revisar a arquitetura do Spark.

Se procura uma lista abrangente de várias ferramentas de otimização, utilize o guia de otimização Databricks . As seções do guia de otimização são referenciadas neste guia da interface do usuário do Spark.

Utilização deste guia

Para navegar pelo guia, use os links incorporados em cada página para ser levado para a próxima etapa. O guia contém as seguintes etapas na ordem:

  1. Use a Linha do Tempo de Trabalhos para identificar os principais problemas
  2. Veja a etapa mais longa
  3. Verifique se há desvio ou derramamento
  4. Determine se o estágio mais longo está limitado por E/S
  5. Procure outras causas de desempenho lento na execução da fase

Vamos começar!

Como abrir a interface do usuário do Spark

  1. Navegue até a página do cluster:

    Navegue até Compute

  2. Clique na Interface do Spark :

    Navegue até SparkUI

Próximo passo

Agora que abriu a interface do Spark, revise a cronologia de eventos para obter mais informações sobre o seu pipeline ou consulta. Consulte cronograma de trabalhos.