Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Derramar
A primeira coisa a procurar em um estágio de longa duração é se há derramamento.
Na parte superior da página do estágio, você verá os detalhes, que podem incluir estatísticas sobre derramamento:
Derramamento é o que acontece quando o Spark é executado com pouca memória. Ele começa a mover dados da memória para o disco, e isso pode ser bastante caro. É mais comum durante o embaralhamento de dados.
Se você não vir estatísticas de vazamento, isso significa que a etapa não tem nenhum vazamento. Se o estágio tiver qualquer derramamento, consulte este guia sobre como lidar com o derramamento causado pelo shuffle.
Distorcer
A próxima coisa que queremos examinar é se há distorção. Distorção é quando uma ou apenas algumas tarefas demoram muito mais do que o restante. Isso resulta no uso inadequado do cluster e de trabalhos mais longos.
Role para baixo até as Métricas de Resumo. A principal coisa que estamos procurando é que a duração máxima seja muito maior do que a duração do 75º percentil. A captura de tela abaixo mostra um estágio saudável, em que o 75º percentil e Máximo são os mesmos.
Se a duração máxima for 50% maior do que o 75º percentil, você pode estar sofrendo de distorção.
Se você vir distorção, saiba mais sobre as etapas de correção de distorção aqui.
Sem distorção ou despejo
Se você não vir distorção ou derramamento, volte para a página de trabalho para obter uma visão geral do que está acontecendo. Role até a parte superior da página e clique em IDs de Trabalho Associadas:
Se o estágio não tiver derramamento ou desvio, consulte alto volume de entradas e saídas do estágio Spark para as próximas etapas.