Freigeben über


Datenverwaltung mit Azure Databricks

Die Datengovernance ist ein Rahmenwerk aus Richtlinien, Prozessen, Rollen und technischen Kontrollen, das sicherstellt, dass die Daten Ihrer Organisation gesichert, vertrauenswürdig und verantwortungsbewusst während des gesamten Lebenszyklus verwendet werden. Mit effektiver Datengovernance können Sie die Datenqualität beibehalten, vertrauliche Informationen schützen, behördliche Anforderungen erfüllen und den Wert Ihrer Datenressourcen maximieren.

Zu den wichtigsten Komponenten der Datengovernance gehören:

  • Zugriffssteuerung und -sicherheit: Implementieren fein abgestimmter Berechtigungen und Sicherheitsmaßnahmen zum Schutz von Daten vor unbefugtem Zugriff, während die entsprechende Verwendung ermöglicht wird.
  • Datenlinie und Beobachtbarkeit: Nachverfolgen von Datenflüssen und Transformationen, um Datenherkunft, Abhängigkeiten und Verwendungsmuster zu verstehen.
  • Datenqualitätsmanagement: Sicherstellen, dass Daten korrekt, vollständig, konsistent und zuverlässig für Entscheidungsfindung und Analysen sind.
  • Metadatenverwaltung: Erfassen und Verwalten von Informationen zu Datenressourcen, um die Auffindbarkeit und das Verständnis zu verbessern.
  • Durchsetzung der Compliance: Einhalten gesetzlicher Vorschriften und Organisationsrichtlinien für Datenschutz, Aufbewahrung und Nutzung.

Diese Seite konzentriert sich auf die Governance von Daten mithilfe des Unity-Katalogs in Azure Databricks. Verwandte Sicherheitsthemen wie Authentifizierung, Netzwerkkonfiguration, Datenverschlüsselung und Datenschutzcompliance werden in der Übersicht überSicherheit und Compliance behandelt.

Das Datengovernancemodell des Unity-Katalogs

Unity Catalog ist ein zentralisierter Datenkatalog, der Governance sowohl für strukturierte als auch unstrukturierte Daten in mehreren Formaten bereitstellt. Es bietet eine differenzierte Zugriffssteuerung und Governance von KI-Ressourcen wie Machine Learning-Modellen. Unity Catalog ist Open Source und unterstützt mehrere Plattformen. Es ist tief in Azure Databricks integriert.

Unity Catalog ist eine vollständige Datengovernance-Lösung, die Folgendes bereitstellt:

  • Datenvereinheitlichung: eine einheitliche Ansicht aller Daten und KI-Ressourcen plattformübergreifend, wodurch Duplikation und Ausbreitung reduziert werden.
  • Datenzugriffskontrolle: Tools, um sicherzustellen, dass Daten zugänglich sind, aber nur für die richtigen Benutzer.
  • Datenerfindbarkeit: Tools, mit denen Sie die benötigten Daten leicht finden können.
  • Datenqualität: Tools, um sicherzustellen, dass Daten im gesamten Lebenszyklus korrekt, vollständig, konsistent und sicher sind.
  • Datenzusammenarbeit und -freigabe: Tools zum sicheren Teilen von Daten nicht nur innerhalb Ihrer Organisation, sondern über Organisations- und Plattformgrenzen hinweg.
  • Überwachung: Tools, die erfassen, wer die Daten verwendet und wie.

Auf dieser Seite wird erläutert, wie Ihre Organisation diese Anforderungen mithilfe des Unity-Katalogs in Azure Databricks erfüllen kann.

Datenzugriffskontrolle

Um sicherzustellen, dass Benutzer nur auf die gewünschten Daten zugreifen, bietet Unity Catalog ein hierarchisches Berechtigungsmodell, mit dem Sie Benutzern, Gruppen und Dienstprinzipalen Zugriff auf Daten und KI-Ressourcen von der Kontoebene auf Tabellenzeilen und -spalten gewähren können. Sie können den Zugriff auf Objekte steuern, die in dediziertem Unity-Katalogspeicher gespeichert sind oder auf anderen Plattformen gespeichert sind, z. B. Cloudspeicher oder Datenbanksysteme: Der Schlüssel besteht darin, dass Unity-Katalog Ihren Benutzern potenziellen Zugriff auf alle Ihre Daten gewährt, unabhängig davon, wo es sich in Azure Databricks befindet, und dass Unity Catalog ihren Zugriff steuert und die Datennutzung nachverfolgt.

Aufgabe BESCHREIBUNG
Berechtigungen verwalten Erfahren Sie mehr über die sicherungsfähigen Objekte, die Unity Catalog verwaltet, und wie Sie den Zugriff darauf steuern.
Verwalten der attributbasierten Zugriffssteuerung (ABAC) Erfahren Sie, wie Sie den Zugriff auf Daten mithilfe von ABAC im Unity-Katalog steuern.
Verwalten von Identitäten Erfahren Sie, wie Sie Identitäten im Kontext des Unity-Katalogs verwalten.
Feinkörnige Zugriffssteuerung Erfahren Sie, wie Sie den Zugriff auf Tabellendaten mithilfe von Zeilenfiltern und Spaltenmasken steuern.
Verwalten des Zugriffs auf externe Speicher- und Datenplattformen Erfahren Sie, wie Sie den Zugriff auf Cloudspeicher, externe Datenplattformen und externe Nicht-Datendienste mithilfe des Unity-Katalogs steuern.
Verwalten des Zugriffs von externen Plattformen Erfahren Sie, wie Unity Catalog den Zugriff auf Ihre Daten von externen Plattformen verwalten kann, die die Apache Iceberg- oder Open-Source-Unity-Katalog-APIs verwenden.

Datenerfindbarkeit

Azure Databricks und Unity Catalog bieten die folgenden Tools, mit denen Benutzer die benötigten Daten finden können:

Merkmal BESCHREIBUNG
Katalog-Explorer Durchsuchen und Suchen nach Daten und KI-Ressourcen mithilfe von Objektnamen und Metadaten wie Kommentaren und Tags.
Katalogbrowser Suchen Sie Daten und KI-Ressourcen mithilfe von Browsern, die in das Notizbuch und sql-Abfrage-Editor integriert sind. Weitere Informationen finden Sie unter Navigieren im Databricks-Notizbuch und Datei-Editor und Schreiben von Abfragen und Untersuchen von Daten im neuen SQL-Editor.
KI-generierte Kommentare Generieren Sie automatisch Dokumentationen von Daten und KI-Ressourcen, um die Auffindbarkeit zu unterstützen.
Tabellenübersicht Verwenden Sie eine in den Katalog-Explorer integrierte Benutzeroberfläche, um die am häufigsten verwendeten Benutzer und Abfragen einer beliebigen Tabelle im Unity-Katalog anzuzeigen.
Datenherkunft Erfassen und visualisieren Sie, wie Daten durch Ihre Organisation fließen.
Für die Herkunft von Funktionen und Modellen siehe Feature Governance und Herkunft.
Entitätsbeziehungsdiagramme (ERD) Zeigt Beziehungen für Tabellen an, für die Fremdschlüssel definiert sind.

Siehe auch Entdecken von Daten.

Datenqualitätsüberwachung

Tools zur Sicherstellung der Datenqualität und Datenintegrität sind tief in Delta Lake, Apache Spark und Azure Databricks integriert. In der gesamten Azure Databricks-Dokumentation erfahren Sie mehr über sie.

Der Unity-Katalog fügt Folgendes hinzu:

Merkmal BESCHREIBUNG
Datenqualitätsüberwachung Die Datenqualitätsüberwachung hilft Ihnen dabei, die Qualität aller Datenressourcen im Unity-Katalog sicherzustellen. Sie enthält Anomalieerkennung, um die Datenqualität aller Tabellen in einem Katalog oder Schema und Datenprofilerstellung zu überwachen, um die statistischen Eigenschaften und die Qualität der Daten einer einzelnen Tabelle zu überwachen.
Zertifizierte und veraltete Systemtags (private Vorschau) Beschriften Sie sicherungsfähige Objekte, z. B. Kataloge, Schemas und Tabellen, mit Indikatoren für die Datenqualität oder den Lebenszyklusstatus. Diese Systemtags helfen Organisationen dabei, Governance zu erzwingen, die Datenerfindbarkeit zu verbessern und das Vertrauen in Analyse- und KI-Anwendungen zu erhöhen.

Zusammenarbeit und Freigabe von Daten

Im Unity-Katalog können Ihre Benutzer an den gleichen Daten in allen Arbeitsbereichen Ihres Kontos in derselben Region zusammenarbeiten. Wenn Sie über Arbeitsbereiche, Regionen, Organisationen und Plattformen hinweg zusammenarbeiten möchten, bietet Unity Catalog die Grundlage für die folgenden Tools zur gemeinsamen Nutzung.

Merkmal BESCHREIBUNG
Delta-Freigabe Eine sichere Datenfreigabeplattform, mit der Sie Daten und KI-Ressourcen in Azure Databricks für Benutzer außerhalb Ihrer Organisation freigeben können, unabhängig davon, ob diese Benutzer Databricks verwenden oder nicht.
Reinräume Eine vom Databricks verwaltete Umgebung, in der mehrere Teilnehmer auf Databricks- und Nicht-Databricks-Plattformen an Projekten zusammenarbeiten können, ohne zugrunde liegende Daten miteinander zu teilen.
Databricks-Marketplace Ein offenes Forum für den Austausch von Daten und KI-Produkten. Außerdem wird ein privater Datenaustausch bereitgestellt.

Rechnungsprüfung

Überwachungsprotokolle erfassen detaillierte Details darüber, wer auf ein bestimmtes Dataset zugegriffen hat, und die aktionen, die sie ausgeführt haben. Unity Catalog fügt Systemtabellen hinzu, die einfachste Möglichkeit, auf die Überwachungsprotokolle Ihres Kontos zuzugreifen und sie abzufragen.

Siehe Diagnoseprotokollreferenz und Überwachen der Kontoaktivität mit Systemtabellen.

Veraltete Azure Databricks Data-Governance Tools

Azure Databricks bietet auch diese Legacy-Governance-Features. Databricks empfiehlt, stattdessen Unity Catalog zu verwenden.

Merkmal BESCHREIBUNG
Zugriffssteuerung für Tabellen Ein veraltetes Data-Governance-Modell, mit dem Sie programmgesteuert Zugriff auf Objekte gewähren und widerrufen können, die vom integrierten Hive-Metaspeicher Ihres Arbeitsbereichs kontrolliert werden.
Azure Data Lake Storage Anmeldeinformationen durchreichen Eine veraltete Data-Governance Funktion, die Ihnen die Möglichkeit bietet, sich automatisch von Azure Databricks Clustern aus bei Azure Storage zu authentifizieren, indem Sie dieselbe Microsoft Entra ID Identität verwenden, mit der Sie sich bei Azure Databricks anmelden.

Nächste Schritte