Freigeben über


Standard-Konnektoren in Lakeflow Connect

Auf dieser Seite werden die Standardconnectors in Databricks Lakeflow Connect beschrieben, die im Vergleich zu den verwalteten Connectors höhere Anpassungsebenen für die Aufnahmepipeline bieten.

Ebenen des ETL-Stapels

Einige Verbinder arbeiten auf einer Ebene des ETL-Stapels. Beispielsweise bietet Databricks vollständig verwaltete Connectors für Unternehmensanwendungen wie Salesforce und Datenbanken wie SQL Server. Andere Verbinder funktionieren auf mehreren Ebenen des ETL-Stapels. Sie können z. B. Standardconnectors entweder in Structured Streaming für eine umfassende Anpassung oder Lakeflow Spark Declarative Pipelines für ein besser verwaltetes Erlebnis verwenden.

ETL-Stapeldiagramm

Databricks empfiehlt, mit der am häufigsten verwalteten Ebene zu beginnen. Wenn dies Ihre Anforderungen nicht erfüllt (z. B. wenn Ihre Datenquelle nicht unterstützt wird), gehen Sie zur nächsten Ebene.

In der folgenden Tabelle werden die drei Ebenen der Aufnahmeprodukte beschrieben, sortiert von den meisten anpassbaren bis zu den meisten verwalteten Produkten:

Ebene BESCHREIBUNG
Strukturiertes Streaming Apache Spark Structured Streaming ist eine Streaming-Engine, die End-to-End-Fehlertoleranz mit Garantien für genau eine Verarbeitung unter Verwendung von Spark-APIs bietet.
Lakeflow Spark Declarative Pipelines Lakeflow Spark Declarative Pipelines baut auf Structured Streaming auf und bietet ein deklaratives Framework zum Erstellen von Datenpipelines. Sie können die Transformationen definieren, die für Ihre Daten ausgeführt werden sollen, und Lakeflow Spark Declarative Pipelines verwaltet Orchestrierung, Überwachung, Datenqualität, Fehler und vieles mehr. Daher bietet es mehr Automatisierung und weniger Mehraufwand als strukturiertes Streaming.
Verwaltete Connectors Vollständig verwaltete Connectors basieren auf Lakeflow Spark Declarative Pipelines und bieten noch mehr Automatisierung für die beliebtesten Datenquellen. Sie erweitern die Funktionen von Lakeflow Spark Declarative Pipelines, um auch quellspezifische Authentifizierung, CDC, Edge case Handling, langfristige API-Wartung, automatisierte Wiederholungen, automatisierte Schemaentwicklung usw. einzuschließen. Daher bieten sie noch mehr Automatisierung für alle unterstützten Datenquellen.

Wählen Sie einen Anschluss

Die folgende Tabelle zeigt Standard-Ingestions-Connectors, geordnet nach Datenquelle und Grad der Anpassung der Pipeline. Verwenden Sie für ein vollständig automatisiertes Erfassungserlebnis stattdessen verwaltete Connectors.

SQL-Beispiele für die inkrementelle Erfassung von Cloudobjektspeichern verwenden CREATE STREAMING TABLE Syntax. Es bietet SQL-Benutzern eine skalierbare und robuste Aufnahmeerfahrung, daher ist es die empfohlene Alternative zu COPY INTO.

Quelle Weitere Anpassungen Einige Anpassungen Mehr Automatisierung
Cloudobjektspeicher Automatisches Laden mit strukturiertem Streaming
(Python, Scala)
Auto Loader mit Lakeflow Spark Declarative Pipelines
(Python, SQL)
Automatisches Laden mit Databricks SQL
(SQL)
SFTP-Server Aufnehmen von Dateien von SFTP-Servern
(Python, SQL)
N/A N/A
Apache Kafka Strukturiertes Streaming mit Kafka-Quelle
(Python, Scala)
Lakeflow Spark Declarative Pipelines mit Kafka-Quelle
(Python, SQL)
Databricks SQL mit Kafka-Quelle
(SQL)
Google Pub/Sub (Nachrichtendienst) Strukturiertes Streaming mit Pub/Sub-Quelle
(Python, Scala)
Lakeflow Spark Declarative Pipelines Mit Pub/Sub-Quelle
(Python, SQL)
Databricks SQL mit Pub/Sub-Quelle
(SQL)
Apache Pulsar Strukturiertes Streaming mit Pulsar-Quelle
(Python, Scala)
Lakeflow Spark Deklarative Pipelines mit Pulsar-Quelle
(Python, SQL)
Databricks SQL mit Pulsar-Quelle
(SQL)

Erfassungszeitpläne

Sie können Aufnahmepipelines so konfigurieren, dass sie in einem wiederkehrenden Zeitplan oder kontinuierlich ausgeführt werden.

Anwendungsfall Pipelinemodus
Batcherfassung Ausgelöst: Verarbeitet neue Daten gemäß einem Zeitplan oder bei manueller Auslösung.
Streamingerfassung Fortlaufend: Verarbeitet neue Daten, sobald sie in der Quelle eintreffen.