Microsoft Fabric-Entscheidungsleitfaden: Kopieren von Aktivitäten, Kopierauftrag, Datenfluss, Eventstream oder Spark

Verwenden Sie dieses Referenzhandbuch und die Beispielszenarien, um zu entscheiden, ob Sie eine Kopieraktivität, einen Kopierauftrag, einen Datenfluss, einen Eventstream oder Spark für Ihre Microsoft Fabric-Workloads benötigen.

Kopieraktivität, Kopierauftrag, Datenfluss, Eventstream und Spark-Eigenschaften

	Pipeline-Copy-Aktivität	Kopierauftrag	Dataflow Gen 2	Eventstream	Funke
Anwendungsfall	Data Lake- und Data Warehouse-Migration, Datenaufnahme, Lightweight-Transformation	Datenaufnahme, Inkrementelle Kopie, Replikation Data Lake- und Data Warehouse-Migration, Lightweight-Transformation	Datenaufnahme, Datentransformation, Data Wrangling, Datenprofilerstellung	Ereignisdatenaufnahme, Ereignisdatentransformation	Datenaufnahme, Datentransformation, Datenverarbeitung Datenprofilerstellung
Primäre Entwicklerpersona-	Datentechniker, Datenintegrator	Wirtschaftsanalytiker Datenintegrator, Dateningenieur	Datentechniker, Datenintegrator, Wirtschaftsanalytiker	Datentechniker, Datenwissenschaftler Datenentwickler	Datenintegrator, Data Engineer
Primäre Entwicklerkenntnisse	ETL, SQL JSON	ETL, SQL JSON	ETL, M, SQL	SQL, JSON, Messaging	Spark (Scala, Python, Spark SQL, R)
Geschriebener Code	Kein Code, wenig Code	Kein Code, wenig Code	Kein Code, wenig Code	Kein Code, wenig Code	Programmcode
Datenvolumen	Niedrig bis hoch	Niedrig bis hoch	Niedrig bis hoch	Mittel bis Hoch	Niedrig bis hoch
Entwicklungsschnittstelle	Zauberer Leinwand	Zauberer Leinwand	Power Query	Leinwand	Notizbuch Spark-Auftragsdefinition
Quellen	Mehr als 50 Verbinder	Mehr als 50 Verbinder	150+ Verbinder	Datenbank zur Unterstützung von CDC (Change Data Capture), Kafka, Messaging-Systeme, die Veröffentlichungs- und Abonnieren-Muster unterstützen, Ereignisdatenströme	Hunderte von Spark-Bibliotheken
Reiseziele	Mehr als 40 Verbinder	Mehr als 40 Verbinder	Lakehouse, Azure SQL-Datenbank, Azure Data Explorer, Azure Synapse-Analyse	Eventhouse, Lakehouse, Aktivatorbenachrichtigung, abgeleiteter Stream, benutzerdefinierter Endpunkt	Hunderte von Spark-Bibliotheken
Transformationskomplexität	Niedrig: Lightweight: Typkonvertierung, Spaltenzuordnung, Dateien zusammenführen/teilen, Hierarchie vereinfachen	Niedrig: Lightweight: Typkonvertierung, Spaltenzuordnung, Dateien zusammenführen/teilen, Hierarchie vereinfachen	Niedrig bis hoch: 300+ Transformationsfunktionen	Niedrig: leicht	Niedrig bis hoch: Unterstützung für systemeigene Spark- und Open-Source-Bibliotheken

Szenarien

Sehen Sie sich die folgenden Szenarien an, um Hilfe bei der Auswahl der Verwendung ihrer Daten in Fabric zu erfahren.

Szenario 1

Leo, ein Dateningenieur, muss ein großes Datenvolumen aus externen Systemen sowohl lokal als auch in der Cloud aufnehmen. Zu diesen externen Systemen gehören Datenbanken, Dateisysteme und APIs. Leo möchte keinen Code für jeden Verbinder- oder Datenbewegungsvorgang schreiben und verwalten. Er möchte den Best Practices der Medaillon-Ebenen mit Bronze, Silber und Gold folgen. Leo hat keine Erfahrung mit Spark, daher bevorzugt er die Drag and Drop UI so viel wie möglich, mit minimaler Codierung. Und er möchte die Daten auch termingerecht verarbeiten.

Der erste Schritt besteht darin, die Rohdaten aus Azure-Datenressourcen und verschiedenen Drittanbieterquellen (z. B. Snowflake Web, REST, AWS S3, GCS usw.) in das Bronzeschichtseehaus zu integrieren. Er möchte ein konsolidiertes Daten-Lakehouse, damit alle Daten aus verschiedenen geschäftsbereichsspezifischen, lokalen On-Premises- und Cloud-Quellen an einem zentralen Ort liegen. Leo überprüft die Optionen und wählt die Pipeline-Copy-Aktivität als geeignete Wahl für seine rohe binäre Kopie aus. Dieses Muster gilt sowohl für die historische als auch für die inkrementelle Datenaktualisierung. Mit der Copy-Aktivität kann Leo Daten der Ebene „Gold“ ohne Code in ein Data Warehouse laden, wenn dies erforderlich ist, und Pipelines bieten eine umfassende Datenerfassung, wodurch Daten im Petabyte-Maßstab verschoben werden können. Die Copy-Aktivität ist die beste Wahl für Low-Code und No-Code, um Petabytes an Daten aus verschiedenen Quellen in Lakehouses und Warehouses zu verschieben, entweder ad-hoc oder über einen Zeitplan.

Szenario 2

Mary ist technische Fachkraft für Daten mit fundierten Kenntnissen über die Anforderungen an die analysebasierte Berichterstattung in branchenspezifischen Analysen. Ein Upstreamteam hat erfolgreich eine Lösung implementiert, um die Verlaufsdaten und inkrementellen Daten mehrerer Branchenanwendungen in ein gemeinsames Lakehouse zu migrieren. Mary wurde beauftragt, die Daten zu bereinigen, Geschäftslogik anzuwenden und in mehrere Ziele (z. B. Azure SQL DB, ADX und ein Lakehouse) zu laden, um sie für ihre jeweiligen Berichterstellungsteams vorzubereiten.

Mary ist ein erfahrener Power Query-Benutzer, und das Datenvolumen befindet sich im niedrigen bis mittleren Bereich, um die gewünschte Leistung zu erzielen. Dataflows stellen No-Code- oder Low-Code-Schnittstellen zum Aufnehmen von Daten aus Hunderten von Datenquellen bereit. Mit Datenflüssen können Sie Daten mithilfe von 300+ Datentransformationsoptionen transformieren und die Ergebnisse in mehrere Ziele schreiben, mit einer benutzerfreundlichen, hochgradig visuellen Benutzeroberfläche. Mary überprüft die Optionen und entscheidet, dass es sinnvoll ist, Dataflow Gen 2 als bevorzugte Transformationsoption zu verwenden.

Szenario 3

Prashant, ein Datenintegrator mit fundiertem Know-how in Geschäftsprozessen und Systemen. Ein upstream-Team hat Ereignisdaten aus Geschäftsanwendungen erfolgreich als Nachrichten verfügbar gemacht, die über downstream-Systeme genutzt werden können. Prashant wurde zugewiesen, um Ereignisdaten aus Geschäftsanwendungen in Microsoft Fabric für die Unterstützung von Entscheidungen in Echtzeit zu integrieren.

Angesichts des mittleren bis hohen Datenvolumens und der Vorliebe der Organisation für No-Code-Lösungen sucht Prashant eine Möglichkeit, Ereignisse nahtlos weiterzuleiten, während sie auftreten, ohne Extraktionszeitpläne zu verwalten. Um diesen Bedarf zu erfüllen, wählt er Eventstreams in Microsoft Fabric aus. Eventstreams innerhalb der Real-Time Intelligence-Umgebung ermöglichen echtzeitbasierte Datenaufnahme, Transformation und Routing an verschiedene Ziele – alles ohne Code schreiben zu müssen.

Szenario 4

Adam ist ein Dateningenieur, der für ein großes Einzelhandelsunternehmen arbeitet, das ein Seehaus verwendet, um seine Kundendaten zu speichern und zu analysieren. Als Teil seiner Aufgabe ist Adam für das Bauen und Warten der Pipelines verantwortlich, die Daten extrahieren, transformieren und in das Seehaus laden. Eine der geschäftlichen Anforderungen des Unternehmens besteht darin, Analysen zur Kundenüberprüfung durchzuführen, um Einblicke in die Erfahrungen ihrer Kunden zu gewinnen und ihre Dienste zu verbessern.

Adam entscheidet, die beste Option besteht darin, Spark zum Erstellen der Extrakt- und Transformationslogik zu verwenden. Spark bietet eine verteilte Computerplattform, die große Datenmengen parallel verarbeiten kann. Er schreibt eine Spark-Anwendung mit Python oder Scala, die strukturierte, halbstrukturierte und unstrukturierte Daten aus OneLake für Kundenrezensionen und Feedback liest. Die Anwendung bereinigt, transformiert und schreibt Daten in Delta-Tabellen im Lakehouse. Die Daten können dann für nachgeschaltete Analysen verwendet werden.

Szenario 5

Rajesh, ein Datentechniker, wird beauftragt, inkrementelle Daten aus einem lokalen SQL Server in eine Azure SQL-Datenbank aufzunehmen. Die lokale SQL Server-Instanz von Rajesh verfügt bereits über die Aktivierung von Change Data Capture (CDC) für Schlüsseltabellen.

Rajesh sucht nach einer einfachen, Low-Code-, assistentengesteuerten Lösung, die es ihm ermöglicht:

Auswählen mehrerer systemeigener CDC-aktivierter Quelltabellen
Durchführung einer ersten vollständigen Datenladung
Automatisches Wechseln zu inkrementellen Datenladevorgängen basierend auf CDC
Planen von Datenaktualisierungen für wiederkehrende Updates

Er möchte vermeiden, benutzerdefinierten Code zu schreiben oder komplexe Orchestrierungen zu verwalten. Idealerweise möchte er einen "5x5-Assistenten", wo er das Setup in nur wenigen Klicks erledigen kann.

Rajesh wählt das Feature "Auftrag kopieren" in Microsoft Fabric aus. Mit lokaler Gatewayunterstützung stellt er sicher eine Verbindung mit seinem SQL Server bereit, wählt die gewünschten Tabellen aus und konfiguriert den Fluss so, dass er in die Azure SQL-Zieldatenbank gelangt.

Der Kopierauftrag bietet eine reibungsarme und skalierbare Datenbewegung, die die Anforderungen von Rajesh erfüllt, ohne dass komplexe Pipelines beibehalten werden müssen.

Feedback

War diese Seite hilfreich?

Last updated on 2025-06-04