Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Verschütten
Das Erste, worauf man bei einer Langzeitphase achten sollte, ist, ob ein Überlauf vorhanden ist.
Oben auf der Seite der Stufe werden die Details angezeigt, die statistiken zum Überlauf enthalten können:
Ein Überlauf geschieht, wenn Spark wenig Arbeitsspeicher hat. Es beginnt, Daten vom Arbeitsspeicher auf den Datenträger zu verschieben, und dies kann ziemlich teuer sein. Es tritt am häufigsten während des Datenschaufelns auf.
Wenn keine Statistiken zum Überlauf angezeigt werden, bedeutet das, dass die Bühne keinen Überlauf hat. Wenn die Bühne etwas Verschüttetes hat, lesen Sie diesen Leitfaden, wie mit Verschüttetem, verursacht durch Shuffle, umzugehen ist.
Schief
Als Nächstes wollen wir prüfen, ob es schief ist. Schiefe bedeutet, dass ein Vorgang oder ein paar Vorgänge viel länger dauern als der Rest. Dies führt zu einer schlechten Clusterauslastung und längeren Aufträgen.
Scrollen Sie nach unten zu den Zusammenfassungsmetriken. Worauf wir hauptsächlich achten, ist, dass die Max-Dauer viel höher als die Dauer des 75. Perzentils ist. Der unten stehende Screenshot zeigt einen gesunden Zustand, in dem das 75. Quantil und Max identisch sind.
Wenn die Max-Dauer 50 % höher als das 75. Perzentil ist, liegt möglicherweise Schiefe vor.
Wenn Verzerrung angezeigt wird, erfahren Sie hier mehr über die Schritte zur Korrektur von Verzerrungen hier.
Keine Schiefe bzw. kein Überlauf
Wenn Sie keine Verzerrung oder keinen Überlauf sehen, kehren Sie zur Auftragsseite zurück, um einen Überblick über die aktuelle Situation zu erhalten. Scrollen Sie nach oben auf der Seite, und klicken Sie auf "Zugeordnete Auftrags-IDs":
Wenn die Stufe keinen Überlauf oder keine Schieflage hat, finden Sie die nächsten Schritte unter Spark stage high I/O.