Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel wird die Datenprofilerstellung beschrieben. Es gibt einen Überblick über die Komponenten und die Verwendung von Datenprofilerstellung.
Die Datenprofilerstellung bietet übersichtliche Statistiken für eine Tabelle und berechnet laufend Profilerstellungsmetriken, damit Sie historische Trends mühelos verfolgen können. Es ist nützlich, alle wichtigen Metriken für ausgewählte Tabellen gründlich zu überwachen. Sie können es auch verwenden, um die Leistung von Modellen für maschinelles Lernen und Modell-Servierungsendpunkten zu überwachen, indem Sie Profilerungstabellen mit Modelleingaben und -vorhersagen profilieren. Das Diagramm zeigt den Datenfluss über Daten- und ML-Pipelines in Databricks und wie Sie Profilerstellung verwenden können, um die Datenqualität und Modellleistung kontinuierlich nachzuverfolgen.
Gründe für die Verwendung von Datenprofilerstellung?
Quantitative Metriken helfen Ihnen, die Qualität und Konsistenz Ihrer Daten im Laufe der Zeit nachzuverfolgen und zu bestätigen. Wenn Sie Änderungen in der Datenverteilung ihrer Tabelle oder der Leistung des entsprechenden Modells erkennen, können die durch die Datenprofilerstellung erstellten Tabellen die Änderung erfassen und benachrichtigen und Ihnen helfen, die Ursache zu identifizieren.
Mithilfe der Datenprofilerstellung können Sie Fragen wie die folgenden beantworten:
- Wie sieht die Datenintegrität aus und wie ändert sie sich im Laufe der Zeit? Was ist beispielsweise der Bruchteil der NULL- oder Nullwerte in den aktuellen Daten und hat er sich erhöht?
- Wie sieht die statistische Verteilung der Daten aus und wie verändert sie sich im Laufe der Zeit? Was ist beispielsweise das neunzigste Perzentil einer numerischen Spalte? Oder wie ist die Verteilung von Werten in einer kategoriebasierten Spalte und wie unterscheidet sie sich von gestern?
- Gibt es Abweichungen zwischen den aktuellen Daten und einer bekannten Baseline oder zwischen aufeinander folgenden Zeitfenstern der Daten?
- Wie sieht die statistische Verteilung oder Abweichung einer Teilmenge oder eines Slices der Daten aus?
- Wie verschieben sich ML-Modelleingaben und Vorhersagen im Laufe der Zeit?
- Wie entwickelt sich die Modellleistung im Laufe der Zeit? Ist die Leistung von Modellversion A besser als Version B?
Darüber hinaus können Sie mit der Datenprofilerstellung die Zeit granularität von Beobachtungen steuern und benutzerdefinierte Metriken einrichten.
Anforderungen
- Ihr Arbeitsbereich muss für Unity Catalog aktiviert sein und Sie müssen Zugriff auf Databricks SQL haben.
- Um die Datenprofilerstellung zu aktivieren, müssen Sie über die folgenden Berechtigungen verfügen:
-
USE CATALOGim Katalog undUSE SCHEMAim Schema, das die Tabelle enthält. -
SELECTauf dem Tisch. -
MANAGEim Katalog, im Schema oder in der Tabelle.
-
Hinweis
Datenprofilerstellung verwendet serverlose Berechnung für Aufträge, erfordert jedoch nicht, dass Ihr Konto für die serverlose Berechnung aktiviert ist. Informationen zum Nachverfolgen von Ausgaben finden Sie unter Anzeigen von Datenqualitätsüberwachungsausgaben.
Funktionsweise der Datenprofilerstellung
Um eine Tabelle zu profilieren, erstellen Sie ein Profil, das der Tabelle zugeordnet ist. Um die Leistung eines Machine Learning-Modells zu profilieren, fügen Sie das Profil an eine Ableitungstabelle an, die die Eingaben des Modells und die entsprechenden Vorhersagen enthält.
Die Datenprofilerstellung bietet die folgenden Arten von Analysen: Zeitreihen, Rückschlüsse und Momentaufnahmen.
| Profiltyp | Description |
|---|---|
| Zeitreihe | Wird für Tabellen verwendet, die ein Zeitreihen-Dataset basierend auf einer Zeitstempelspalte enthalten. Die Profilerstellung berechnet Datenqualitätsmetriken in zeitbasierten Fenstern der Zeitreihe. |
| Rückschluss | Wird für Tabellen verwendet, die das Anforderungsprotokoll für ein Modell enthalten. Jede Zeile ist eine Anfrage mit Spalten für den Zeitstempel, die Modelleingaben, die entsprechende Vorhersage und (optional) die Wahrheitskennzeichnung. Profilerstellung vergleicht Modellleistungs- und Datenqualitätsmetriken in zeitbasierten Fenstern des Anforderungsprotokolls. |
| Schnappschuss | Wird für alle anderen Tabellentypen verwendet. Profiling berechnet Datenqualitätsmetriken für alle Daten in der Tabelle. Die vollständige Tabelle wird mit jeder Aktualisierung verarbeitet. |
In diesem Abschnitt werden kurz die eingabetabellen beschrieben, die von der Datenprofilerstellung und den von ihr erzeugten Metriktabellen verwendet werden. Das Diagramm zeigt die Beziehung zwischen den Eingabetabellen, den Metriktabellen, dem Profil und dem Dashboard.
Primäre Tabelle und Basistabelle
Zusätzlich zur zu profilierenden Tabelle, die als "Primärtabelle" bezeichnet wird, können Sie optional eine Baseline-Tabelle angeben, die als Referenz zum Messen von Drift oder der Änderung der Werte im Laufe der Zeit verwendet werden soll. Eine Basistabelle ist nützlich, wenn Sie ein Beispiel dafür haben, wie Ihre Daten aussehen sollen. Die Idee ist, dass die Drift dann relativ zu den erwarteten Datenwerten und Verteilungen berechnet wird.
Die Basistabelle sollte ein Dataset enthalten, das die erwartete Qualität der Eingabedaten in Bezug auf statistische Verteilungen, einzelne Spaltenverteilungen, fehlende Werte und andere Merkmale widerspiegelt. Sie sollte mit dem Schema der profilierten Tabelle übereinstimmen. Die Ausnahme ist die Zeitstempelspalte für Tabellen, die mit Zeitreihen- oder Rückschlussprofilen verwendet werden. Wenn in der Primärtabelle oder in der Basisplantabelle Spalten fehlen, verwendet Profiling nach bestem Ermessen Heuristiken, um die Ausgabemetriken zu berechnen.
Bei Profilen, die ein Snapshot-Profil verwenden, sollte die Baseline-Tabelle eine Momentaufnahme der Daten enthalten, in denen die Verteilung einen akzeptablen Qualitätsstandard repräsentiert. Bei Daten zur Notenverteilung könnte man zum Beispiel eine frühere Klasse als Ausgangspunkt nehmen, in der die Noten gleichmäßig verteilt waren.
Bei Profilen, die ein Zeitreihenprofil verwenden, sollte die Basisplantabelle Daten enthalten, die Zeitfenster darstellen, in denen Datenverteilungen einen akzeptablen Qualitätsstandard darstellen. Bei Wetterdaten könnten Sie zum Beispiel eine Woche, einen Monat oder ein Jahr als Basiswert festlegen, in dem die Temperatur nahe an den erwarteten normalen Temperaturen lag.
Bei Profilen, die ein Rückschlussprofil verwenden, ist eine gute Wahl für einen Basisplan die Daten, die zum Trainieren oder Überprüfen des profilierten Modells verwendet wurden. Auf diese Weise können Benutzer gewarnt werden, wenn die Daten im Vergleich zu den Daten, auf denen das Modell trainiert und validiert wurde, abgewichen sind. Diese Tabelle sollte die gleichen Featurespalten wie die primäre Tabelle enthalten und zusätzlich den gleichen model_id_col haben, der für das InferenceLog der Primären Tabelle angegeben wurde, damit die Daten konsistent aggregiert werden. Im Idealfall sollte der Test- oder Validierungssatz zum Auswerten des Modells verwendet werden, um vergleichbare Modellqualitätsmetriken sicherzustellen.
Metriktabellen und Dashboard
Profiling erstellt zwei Metriktabellen und ein Dashboard. Metrikwerte werden für die gesamte Tabelle und für die Zeitfenster und Datenuntermengen (oder "Segmente") berechnet, die Sie beim Erstellen des Profils angeben. Darüber hinaus werden für die Rückschlussanalyse Metriken für jede Modell-ID berechnet. Weitere Informationen zu den Metriktabellen finden Sie in tabellen zur Datenprofilerstellung.
- Die Profilmetriktabelle enthält Zusammenfassungsstatistiken. Siehe das Schema der Profilmetrikentabelle.
- Die Driftmetrikentabelle enthält Statistiken im Zusammenhang mit der Abweichung der Daten im Laufe der Zeit. Wenn eine Baselinientabelle bereitgestellt wird, wird die Abweichung von der Basislinie auch relativ zu den Basislinienwerten analysiert. Weitere Informationen finden Sie im Tabellenschema der Driftmetriken.
Die Metriktabellen sind Delta-Tabellen und werden in einem von Ihnen angegebenen Unity Catalog-Schema gespeichert. Sie können diese Tabellen über die Databricks-Benutzeroberfläche anzeigen, sie mit Databricks SQL abfragen und darauf basierend Dashboards und Warnmeldungen erstellen.
Für jedes Profil erstellt Databricks automatisch ein Dashboard, mit dem Sie die Profilergebnisse visualisieren und präsentieren können. Das Dashboard ist vollständig anpassbar. Siehe Dashboards.
Einschränkungen
- Für die Profilerstellung werden nur Delta-Tabellen unterstützt, und die Tabelle muss eine der folgenden Tabellentypen sein: verwaltete Tabellen, externe Tabellen, Ansichten, materialisierte Ansichten oder Streamingtabellen.
- Über materialisierte Ansichten erstellte Profile unterstützen keine inkrementelle Verarbeitung.
- Nicht alle Regionen werden unterstützt. Informationen zur regionalen Unterstützung finden Sie in der Spalte Datenprofilerstellung in der Tabelle Verfügbarkeit von Funktionen für KI und maschinelles Lernen.
- Profile, die mit den Zeitreihen- oder Rückschlussanalysemodi erstellt wurden, berechnen nur Metriken in den letzten 30 Tagen. Wenn Sie dies anpassen müssen, wenden Sie sich an Ihr Databricks-Kontoteam.
Beginnen Sie mit der Verwendung der Datenprofilerstellung
Hinweise zu den ersten Schritten finden Sie in den folgenden Artikeln:
- Erstellen Sie ein Profil mithilfe der Databricks-Benutzeroberfläche.
- Erstellen Sie ein Datenprofil mithilfe der API.
- Metriktabellen zur Datenprofilerstellung.
- Dashboard zur Datenprofilerstellung.
- Profilwarnungen.
- Verwenden Sie benutzerdefinierte Metriken mit Datenprofilerstellung.
- Rückschlusstabellen zum Überwachen und Debuggen von Modellen.
- Überwachung von Fairness und Trend für Klassifizierungsmodelle.
- Weitere Informationen zur Datenprofilerstellungs-API finden Sie im Referenzmaterial.
- Beispielnotebooks.