Freigeben über


Microsoft Fabric-Entscheidungsleitfaden: Kopieren von Aktivitäten, Kopierauftrag, Datenfluss, Eventstream oder Spark

Verwenden Sie dieses Referenzhandbuch und die Beispielszenarien, um zu entscheiden, ob Sie eine Kopieraktivität, einen Kopierauftrag, einen Datenfluss, einen Eventstream oder Spark für Ihre Microsoft Fabric-Workloads benötigen.

Kopieraktivität, Kopierauftrag, Datenfluss, Eventstream und Spark-Eigenschaften

Pipeline-Copy-Aktivität Kopierauftrag Dataflow Gen 2 Eventstream Funke
Anwendungsfall Data Lake- und Data Warehouse-Migration,
Datenaufnahme,
Lightweight-Transformation
Datenaufnahme,
Inkrementelle Kopie,
Replikation
Data Lake- und Data Warehouse-Migration,
Lightweight-Transformation
Datenaufnahme,
Datentransformation,
Data Wrangling,
Datenprofilerstellung
Ereignisdatenaufnahme,
Ereignisdatentransformation
Datenaufnahme,
Datentransformation,
Datenverarbeitung
Datenprofilerstellung
Primäre Entwicklerpersona- Datentechniker,
Datenintegrator
Wirtschaftsanalytiker
Datenintegrator,
Dateningenieur
Datentechniker,
Datenintegrator,
Wirtschaftsanalytiker
Datentechniker,
Datenwissenschaftler
Datenentwickler
Datenintegrator,
Data Engineer
Primäre Entwicklerkenntnisse ETL,
SQL
JSON
ETL,
SQL
JSON
ETL,
M,
SQL
SQL, JSON, Messaging Spark (Scala, Python, Spark SQL, R)
Geschriebener Code Kein Code,
wenig Code
Kein Code,
wenig Code
Kein Code,
wenig Code
Kein Code,
wenig Code
Programmcode
Datenvolumen Niedrig bis hoch Niedrig bis hoch Niedrig bis hoch Mittel bis Hoch Niedrig bis hoch
Entwicklungsschnittstelle Zauberer
Leinwand
Zauberer
Leinwand
Power Query Leinwand Notizbuch
Spark-Auftragsdefinition
Quellen Mehr als 50 Verbinder Mehr als 50 Verbinder 150+ Verbinder Datenbank zur Unterstützung von CDC (Change Data Capture), Kafka, Messaging-Systeme, die Veröffentlichungs- und Abonnieren-Muster unterstützen, Ereignisdatenströme Hunderte von Spark-Bibliotheken
Reiseziele Mehr als 40 Verbinder Mehr als 40 Verbinder Lakehouse,
Azure SQL-Datenbank,
Azure Data Explorer,
Azure Synapse-Analyse
Eventhouse, Lakehouse, Aktivatorbenachrichtigung, abgeleiteter Stream, benutzerdefinierter Endpunkt Hunderte von Spark-Bibliotheken
Transformationskomplexität Niedrig:
Lightweight: Typkonvertierung, Spaltenzuordnung, Dateien zusammenführen/teilen, Hierarchie vereinfachen
Niedrig:
Lightweight: Typkonvertierung, Spaltenzuordnung, Dateien zusammenführen/teilen, Hierarchie vereinfachen
Niedrig bis hoch:
300+ Transformationsfunktionen
Niedrig:
leicht
Niedrig bis hoch:
Unterstützung für systemeigene Spark- und Open-Source-Bibliotheken

Szenarien

Sehen Sie sich die folgenden Szenarien an, um Hilfe bei der Auswahl der Verwendung ihrer Daten in Fabric zu erfahren.

Szenario 1

Leo, ein Dateningenieur, muss ein großes Datenvolumen aus externen Systemen sowohl lokal als auch in der Cloud aufnehmen. Zu diesen externen Systemen gehören Datenbanken, Dateisysteme und APIs. Leo möchte keinen Code für jeden Verbinder- oder Datenbewegungsvorgang schreiben und verwalten. Er möchte den Best Practices der Medaillon-Ebenen mit Bronze, Silber und Gold folgen. Leo hat keine Erfahrung mit Spark, daher bevorzugt er die Drag and Drop UI so viel wie möglich, mit minimaler Codierung. Und er möchte die Daten auch termingerecht verarbeiten.

Der erste Schritt besteht darin, die Rohdaten aus Azure-Datenressourcen und verschiedenen Drittanbieterquellen (z. B. Snowflake Web, REST, AWS S3, GCS usw.) in das Bronzeschichtseehaus zu integrieren. Er möchte ein konsolidiertes Daten-Lakehouse, damit alle Daten aus verschiedenen geschäftsbereichsspezifischen, lokalen On-Premises- und Cloud-Quellen an einem zentralen Ort liegen. Leo überprüft die Optionen und wählt die Pipeline-Copy-Aktivität als geeignete Wahl für seine rohe binäre Kopie aus. Dieses Muster gilt sowohl für die historische als auch für die inkrementelle Datenaktualisierung. Mit der Copy-Aktivität kann Leo Daten der Ebene „Gold“ ohne Code in ein Data Warehouse laden, wenn dies erforderlich ist, und Pipelines bieten eine umfassende Datenerfassung, wodurch Daten im Petabyte-Maßstab verschoben werden können. Die Copy-Aktivität ist die beste Wahl für Low-Code und No-Code, um Petabytes an Daten aus verschiedenen Quellen in Lakehouses und Warehouses zu verschieben, entweder ad-hoc oder über einen Zeitplan.

Szenario 2

Mary ist technische Fachkraft für Daten mit fundierten Kenntnissen über die Anforderungen an die analysebasierte Berichterstattung in branchenspezifischen Analysen. Ein Upstreamteam hat erfolgreich eine Lösung implementiert, um die Verlaufsdaten und inkrementellen Daten mehrerer Branchenanwendungen in ein gemeinsames Lakehouse zu migrieren. Mary wurde beauftragt, die Daten zu bereinigen, Geschäftslogik anzuwenden und in mehrere Ziele (z. B. Azure SQL DB, ADX und ein Lakehouse) zu laden, um sie für ihre jeweiligen Berichterstellungsteams vorzubereiten.

Mary ist ein erfahrener Power Query-Benutzer, und das Datenvolumen befindet sich im niedrigen bis mittleren Bereich, um die gewünschte Leistung zu erzielen. Dataflows stellen No-Code- oder Low-Code-Schnittstellen zum Aufnehmen von Daten aus Hunderten von Datenquellen bereit. Mit Datenflüssen können Sie Daten mithilfe von 300+ Datentransformationsoptionen transformieren und die Ergebnisse in mehrere Ziele schreiben, mit einer benutzerfreundlichen, hochgradig visuellen Benutzeroberfläche. Mary überprüft die Optionen und entscheidet, dass es sinnvoll ist, Dataflow Gen 2 als bevorzugte Transformationsoption zu verwenden.

Szenario 3

Prashant, ein Datenintegrator mit fundiertem Know-how in Geschäftsprozessen und Systemen. Ein upstream-Team hat Ereignisdaten aus Geschäftsanwendungen erfolgreich als Nachrichten verfügbar gemacht, die über downstream-Systeme genutzt werden können. Prashant wurde zugewiesen, um Ereignisdaten aus Geschäftsanwendungen in Microsoft Fabric für die Unterstützung von Entscheidungen in Echtzeit zu integrieren.

Angesichts des mittleren bis hohen Datenvolumens und der Vorliebe der Organisation für No-Code-Lösungen sucht Prashant eine Möglichkeit, Ereignisse nahtlos weiterzuleiten, während sie auftreten, ohne Extraktionszeitpläne zu verwalten. Um diesen Bedarf zu erfüllen, wählt er Eventstreams in Microsoft Fabric aus. Eventstreams innerhalb der Real-Time Intelligence-Umgebung ermöglichen echtzeitbasierte Datenaufnahme, Transformation und Routing an verschiedene Ziele – alles ohne Code schreiben zu müssen.

Szenario 4

Adam ist ein Dateningenieur, der für ein großes Einzelhandelsunternehmen arbeitet, das ein Seehaus verwendet, um seine Kundendaten zu speichern und zu analysieren. Als Teil seiner Aufgabe ist Adam für das Bauen und Warten der Pipelines verantwortlich, die Daten extrahieren, transformieren und in das Seehaus laden. Eine der geschäftlichen Anforderungen des Unternehmens besteht darin, Analysen zur Kundenüberprüfung durchzuführen, um Einblicke in die Erfahrungen ihrer Kunden zu gewinnen und ihre Dienste zu verbessern.

Adam entscheidet, die beste Option besteht darin, Spark zum Erstellen der Extrakt- und Transformationslogik zu verwenden. Spark bietet eine verteilte Computerplattform, die große Datenmengen parallel verarbeiten kann. Er schreibt eine Spark-Anwendung mit Python oder Scala, die strukturierte, halbstrukturierte und unstrukturierte Daten aus OneLake für Kundenrezensionen und Feedback liest. Die Anwendung bereinigt, transformiert und schreibt Daten in Delta-Tabellen im Lakehouse. Die Daten können dann für nachgeschaltete Analysen verwendet werden.

Szenario 5

Rajesh, ein Datentechniker, wird beauftragt, inkrementelle Daten aus einem lokalen SQL Server in eine Azure SQL-Datenbank aufzunehmen. Die lokale SQL Server-Instanz von Rajesh verfügt bereits über die Aktivierung von Change Data Capture (CDC) für Schlüsseltabellen.

Rajesh sucht nach einer einfachen, Low-Code-, assistentengesteuerten Lösung, die es ihm ermöglicht:

  • Auswählen mehrerer systemeigener CDC-aktivierter Quelltabellen
  • Durchführung einer ersten vollständigen Datenladung
  • Automatisches Wechseln zu inkrementellen Datenladevorgängen basierend auf CDC
  • Planen von Datenaktualisierungen für wiederkehrende Updates

Er möchte vermeiden, benutzerdefinierten Code zu schreiben oder komplexe Orchestrierungen zu verwalten. Idealerweise möchte er einen "5x5-Assistenten", wo er das Setup in nur wenigen Klicks erledigen kann.

Rajesh wählt das Feature "Auftrag kopieren" in Microsoft Fabric aus. Mit lokaler Gatewayunterstützung stellt er sicher eine Verbindung mit seinem SQL Server bereit, wählt die gewünschten Tabellen aus und konfiguriert den Fluss so, dass er in die Azure SQL-Zieldatenbank gelangt.

Der Kopierauftrag bietet eine reibungsarme und skalierbare Datenbewegung, die die Anforderungen von Rajesh erfüllt, ohne dass komplexe Pipelines beibehalten werden müssen.