Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel werden Konfigurationen für serverlose Pipelines beschrieben.
Databricks empfiehlt, neue Pipelines ohne Server zu entwickeln. Einige Workloads erfordern möglicherweise das Konfigurieren der klassischen Berechnung oder das Arbeiten mit dem legacy-Hive-Metaspeicher. Siehe Konfigurieren der klassischen Berechnung für Pipelines und Verwenden von Lakeflow Spark Declarative Pipelines mit legacy hive metastore.
Hinweis
- Serverlose Pipelines verwenden immer Unity-Katalog. Siehe Verwenden des Unity-Katalogs mit Pipelines.
- Informationen zu Beschränkungen der serverlosen Verarbeitung finden Sie unter Beschränkungen der serverlosen Verarbeitung.
- Sie können In einem
clustersObjekt in der JSON-Konfiguration für eine serverlose Pipeline keine Berechnungseinstellungen manuell hinzufügen. Ein entsprechender Versuch führt zu einem Fehler.
- Wenn Sie eine Azure Private Link-Verbindung mit Ihren serverlosen Lakeflow Spark Declarative Pipelines verwenden müssen, wenden Sie sich an Ihren Databricks-Vertreter.
Anforderungen
- Ihr Arbeitsbereich muss Unity-Katalog aktiviert haben, um serverlose Pipelines zu verwenden.
- Ihr Arbeitsbereich muss sich in einer serverlos-fähigen Region befinden.
Empfohlene Konfiguration für serverlose Pipelines
Von Bedeutung
Die Berechtigung zum Erstellen von Clustern ist nicht erforderlich, um serverlose Pipelines zu konfigurieren. Standardmäßig können alle Arbeitsbereichsbenutzer serverlose Pipelines verwenden.
Serverlose Pipelines entfernen die meisten Konfigurationsoptionen, da Azure Databricks alle Infrastruktur verwaltet. Wenn Sie eine neue Pipeline erstellen, wird standardmäßig „serverless“ verwendet. Informationen zum Konfigurieren einer serverlosen Pipeline finden Sie unter Konfigurieren von Pipelines.
Sie können auch vorhandene Pipelines konvertieren, die mit Dem Unity-Katalog konfiguriert sind, um serverlos zu verwenden. Siehe Konvertieren einer vorhandenen Pipeline zur Nutzung von serverlosen Diensten.
Weitere Konfigurationsüberlegungen
Die folgenden Konfigurationsoptionen stehen auch für serverlose Pipelines zur Verfügung:
- Sie können den Pipelinemodus Fortlaufend verwenden, wenn Sie Pipelines in der Produktion ausführen. Siehe Ausgelöste vs. Continuous Pipeline-Modus.
- Fügen Sie Benachrichtigungen für E-Mail-Updates basierend auf Erfolgs- oder Fehlerbedingungen hinzu. Siehe Hinzufügen von E-Mail-Benachrichtigungen für Pipelineereignisse.
- Verwenden Sie das Feld "Konfiguration ", um Schlüsselwertpaare für die Pipeline festzulegen. Diese Konfigurationen dienen zwei Zwecken:
- Legen Sie beliebige Parameter fest, auf die Sie im Quellcode verweisen können. Siehe Verwendung von Parametern mit Pipelines.
- Konfigurieren Sie Pipelineeinstellungen und Spark-Konfigurationen. Siehe Pipeline-Eigenschaften-Referenz.
- Verwenden Sie den Preview-Kanal, um Ihre Pipeline mit ausstehenden Laufzeitänderungen von Lakeflow Spark Declarative Pipelines zu testen und um neue Features auszuprobieren.
Serverlose Budgetrichtlinie
Von Bedeutung
Dieses Feature befindet sich in der Public Preview.
Richtlinien für serverlose Budgets ermöglichen Ihrer Organisation, benutzerdefinierte Tags auf die serverlose Nutzung zur präzisen Zuordnung von Abrechnungen anzuwenden. Nachdem Sie das Kontrollkästchen "Serverless " aktiviert haben, wird die Einstellung "Budgetrichtlinie " angezeigt, in der Sie die Richtlinie auswählen können, die Sie auf die Pipeline anwenden möchten. Die Tags werden von der serverlosen Budgetrichtlinie übernommen und können nur von Admins der Arbeitsbereiche bearbeitet werden.
Hinweis
Nachdem Ihnen eine serverlose Budgetrichtlinie zugewiesen wurde, werden Ihre vorhandenen Pipelines nicht automatisch mit Ihrer Richtlinie markiert. Sie müssen vorhandene Pipelines manuell aktualisieren, wenn Sie eine Richtlinie an diese anfügen möchten.
Weitere Informationen zu Serverlosen Budgetrichtlinien finden Sie unter Attributverwendung mit serverlosen Budgetrichtlinien.
Auswählen eines Leistungsmodus
Für ausgelöste Pipelines können Sie den serverlosen Computeleistungsmodus auswählen, indem Sie die Einstellung "Leistungsoptimiert " im Pipelineplaner verwenden. Wenn diese Einstellung deaktiviert ist, verwendet die Pipeline den Standardleistungsmodus. Der Standardleistungsmodus ist so konzipiert, dass die Kosten für Workloads reduziert werden, bei denen eine etwas höhere Startlatenz akzeptabel ist. Serverlose Workloads, die den Standardleistungsmodus verwenden, beginnen in der Regel innerhalb von vier bis sechs Minuten nach dem Auslösen, abhängig von der Berechnungsverfügbarkeit und optimierter Planung.
Wenn leistungsoptimiert aktiviert ist, wird Ihre Pipeline für eine gesteigerte Leistung optimiert, was dazu führt, dass zeitkritische Workloads schneller gestartet und ausgeführt werden.
Beide Modi verwenden dieselbe SKU, aber der Standardleistungsmodus verbraucht weniger DBUs, was eine geringere Rechennutzung widerspiegelt.
Hinweis
Um den Standardleistungsmodus in fortlaufenden Pipelines zu verwenden, wenden Sie sich an Ihr Databricks-Kontoteam.
Serverlose Pipeline-Merkmale
Zusätzlich zur Vereinfachung der Konfiguration verfügen serverlose Pipelines über die folgenden Features:
- Inkrementelle Aktualisierung für materialisierte Ansichten: Aktualisierungen für materialisierte Ansichten werden nach Möglichkeit inkrementell aktualisiert. Die inkrementelle Aktualisierung liefert dieselben Ergebnisse wie die vollständige Neuberechnung. Das Update verwendet eine vollständige Aktualisierung, wenn Ergebnisse nicht inkrementell berechnet werden können. Siehe inkrementelle Aktualisierung für materialisierte Ansichten.
- Streampipelining: Um die Auslastung, den Durchsatz und die Latenz für Streamingdatenworkloads wie die Datenerfassung zu verbessern, werden Mikrobatches in eine Pipeline eingefügt. Anders ausgedrückt: Statt Mikrobatches sequenziell wie beim standardmäßigen Spark Structured Streaming auszuführen, führen serverlose Lakeflow Spark Declarative Pipelines Mikrobatches parallel aus, was die Nutzung der Rechnerressourcen verbessert. Stream-Pipelining ist standardmäßig in serverlosen Pipelines aktiviert.
- Vertikale Autoskalierung: Die serverlosen Lakeflow Spark Deklarative Pipelines ergänzen die horizontale Autoskalierung von Databricks durch eine verbesserte Autoskalierung. Dabei werden automatisch die kosteneffizientesten Instanztypen zugewiesen, die Ihre Pipeline ausführen können, ohne aufgrund von Speicherfehlern zu scheitern. Weitere Informationen finden Sie unter Was ist vertikale Autoskalierung?
Konvertiere eine vorhandene Pipeline zur serverlosen Nutzung
Sie können vorhandene Pipelines, die mit Unity Catalog konfiguriert sind, in serverlose Pipelines konvertieren. Führen Sie die folgenden Schritte aus:
- Klicken Sie in der Randleiste Ihres Azure Databricks-Arbeitsbereichs auf Aufträge und Pipelines.
- Klicken Sie auf den Namen der Pipeline.
- Klicken Sie auf Einstellungen.
- Klicken Sie in der rechten Randleiste unter "Berechnen" auf "
.
- Aktivieren Sie das Kontrollkästchen neben Serverless.
- Klicken Sie auf "Speichern".
Von Bedeutung
Wenn Sie „Serverlos“ aktivieren, werden alle Computeeinstellungen, die Sie für eine Pipeline konfiguriert haben, entfernt. Wenn Sie eine Pipeline wieder auf nicht serverlose Updates umstellen, müssen Sie die gewünschten Computeeinstellungen in die Pipelinekonfiguration neu konfigurieren.
Wie finde ich den DBU-Verbrauch einer serverlosen Pipeline?
Sie finden die DBU-Verwendung von serverlosen Lakeflow Spark Declarative Pipelines, indem Sie die abrechnungsfähige Verwendungstabelle abfragen, Teil der Azure Databricks-Systemtabellen. Sehen Sie sich an, was der DBU-Verbrauch einer serverlosen Pipeline ist?.