Freigeben über


Datenqualitätsüberwachungs-Ergebnistabellenreferenz

Von Bedeutung

Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.

Auf dieser Seite wird das Datenqualitätsüberwachungsergebnis-Systemtabellenschema beschrieben und Beispielabfragen enthalten. In der Tabelle werden Ergebnisse von Aktualitäts- und Vollständigkeitsprüfungen sowie nachgelagerte Auswirkungen und Ursachenanalyse in allen Tabellen gespeichert, die für die Datenqualitätsüberwachung in Ihrem Metastore aktiviert sind.

Tabellenpfad: system.data_quality_monitoring.table_results

Nur Kontoadministratoren können auf diese Tabelle zugreifen, und sie müssen bei Bedarf Zugriff auf andere Personen gewähren. Die Systemtabelle verwendet Standardspeicher. Da sie Beispielwerte und nachgeschaltete Nutzungsdaten enthält, gehen Sie vorsichtig vor, wenn Sie anderen Zugriff gewähren.

Datenqualitätsüberwachungsergebnistabellenschema

Die system.data_quality_monitoring.table_results Tabelle verwendet das folgende Schema:

Spaltenname Inhalt (für struct Datentyp) Datentyp Description Beispieldaten
event_time Zeitstempel Zeitpunkt, zu dem die Zeile generiert wurde. 2025-06-27T12:00:00
catalog_name Schnur Name des Katalogs. Wird verwendet, um die Tabelle zu identifizieren. main
schema_name Schnur Name des Schemas. Wird verwendet, um die Tabelle zu identifizieren. default
table_name Schnur Name der Tabelle. Wird verwendet, um die Tabelle zu identifizieren. events
catalog_id Schnur Stabile ID für den Katalog. 3f1a7d6e-9c59-4b76-8c32-8d4c74e289fe
schema_id Schnur Stabile ID für das Schema. 3f1a7d6e-9c59-4b76-8c32-8d4c74e289fe
table_id Schnur Stabile ID für die Tabelle. 3f1a7d6e-9c59-4b76-8c32-8d4c74e289fe
status Schnur Konsolidierter Integritätsstatus auf Tabellenebene. "Ungesund" wenn eine Überprüfung oder Gruppe fehlerhaft ist. Healthy, UnhealthyUnknown
freshness struct Frischeprüfungen.
status Schnur Gesamtfrischestatus. Unhealthy
commit_freshness Struktur Übernehmen Sie die Ergebnisse der Aktualitätsprüfung.
completeness struct Ergebnisse der Vollständigkeitsprüfung.
status Schnur Status der Vollständigkeitsprüfung. Unhealthy
total_row_count Struktur Die Gesamtzahl der Zeilen in der Tabelle im Laufe der Zeit.
daily_row_count Struktur Die Anzahl der Zeilen, die jeden Tag hinzugefügt wurden.
downstream_impact struct Zusammenfassung der nachgelagerten Auswirkungen basierend auf abhängigkeitsdiagramm.
impact_level INT Schweregradindikator (0 = none, 1 = niedrig, 2 = mittel, 3 = hoch, 4 = sehr hoch). 2
num_downstream_tables INT Die Anzahl der nachgelagerten Tabellen, die betroffen sind. 5
num_queries_on_affected_tables INT Die Anzahl der Abfragen, die in den letzten 30 Tagen auf betroffenen nachgelagerten Tabellen ausgeführt werden. 120
root_cause_analysis struct Informationen zu upstream-Aufträgen, die zu dem Problem beitragen.
upstream_jobs Anordnung Metadaten für jeden Upstreamauftrag.

commit_freshness Arraystruktur

Die commit_freshness Struktur enthält Folgendes:

Elementname Datentyp Description Beispieldaten
status Schnur Status der Commit-Aktualitätsprüfung. Unhealthy
error_code Schnur Fehlermeldung, die während der Überprüfung aufgetreten ist. FAILED_TO_FIT_MODEL
last_value Zeitstempel Letzter Commit-Zeitstempel. 2025-06-27T11:30:00
predicted_value Zeitstempel Vorhergesagte Zeit, um die die Tabelle aktualisiert werden soll. 2025-06-27T11:45:00

total_row_count und daily_row_count Arraystruktur

Die total_row_count Und daily_row_count Strukturen enthalten Folgendes:

Elementname Datentyp Description Beispieldaten
status Schnur Status der Prüfung. Unhealthy
error_code Schnur Fehlermeldung, die während der Überprüfung aufgetreten ist. FAILED_TO_FIT_MODEL
last_value INT Die Anzahl der in den letzten 24 Stunden beobachteten Zeilen. 500
min_predicted_value INT Minimale erwartete Anzahl von Zeilen in den letzten 24 Stunden. 10
max_predicted_value INT Maximale erwartete Anzahl von Zeilen in den letzten 24 Stunden. 1000

upstream_jobs Arraystruktur

Die Struktur des Arrays, das in der upstream_jobs Spalte angezeigt wird, wird in der folgenden Tabelle angezeigt:

Elementname Datentyp Description Beispieldaten
job_id Schnur Auftrags-ID. 12345
workspace_id Schnur Arbeitsbereichs-ID. 6051921418418893
job_name Schnur Auftragsanzeigename. daily_refresh
last_run_status Schnur Status der letzten Ausführung. SUCCESS
run_page_url Schnur URL der Datenbricks-Auftragsausführungsseite. https://.../runs/123

Informationen zu nachgeschalteten Auswirkungen

In der Tabelle der protokollierten Ergebnisse ist die Spalte downstream_impact ein struct Feld mit den folgenden Feldern:

Feld Typ Description
impact_level INT Ganzzahliger Wert zwischen 1 und 4, der den Schweregrad des Datenqualitätsproblems angibt. Höhere Werte deuten auf eine größere Unterbrechung hin.
num_downstream_tables INT Anzahl der nachgelagerten Tabellen, die möglicherweise vom identifizierten Problem betroffen sind.
num_queries_on_affected_tables INT Die Gesamtzahl der Anfragen, die in den letzten 30 Tagen auf die betroffenen und nachgeschalteten Tabellen verwiesen haben.

Beispielabfragen

Ersetzen Sie die Parameterwerte durch eigene Werte, bevor Sie das Programm ausführen.

Abrufen aller aktuellen Vorfälle in einem Schema

WITH latest_rows AS (
    SELECT
        *,
        ROW_NUMBER() OVER (
            PARTITION BY table_id
            ORDER BY event_time DESC
        ) AS rn
    FROM
      system.data_quality_monitoring.table_results
    WHERE
      catalog_name = "c"
      AND schema_name = "s"
)

SELECT *
FROM latest_rows
WHERE
  rn = 1
  AND status = "Unhealthy"

Abrufen aller Vorfalltabellen in einem Schema, die eine hohe downstream-Auswirkung haben

WITH latest_rows AS (
    SELECT
        *,
        ROW_NUMBER() OVER (
            PARTITION BY table_id
            ORDER BY event_time DESC
        ) AS rn
    FROM
      system.data_quality_monitoring.table_results
    WHERE
      catalog_name = "c"
      AND schema_name = "s"
)
SELECT *
FROM latest_rows
WHERE rn = 1
  AND downstream_impact.impact_level >= 3

Abrufen aller Tabellen in einem Schema, die derzeit von einem Aktualitätsproblem betroffen sind

WITH latest_rows AS (
    SELECT
        *,
        ROW_NUMBER() OVER (
            PARTITION BY table_id
            ORDER BY event_time DESC
        ) AS rn
    FROM
      system.data_quality_monitoring.table_results
    WHERE
      catalog_name = "c"
      AND schema_name = "s"
)

SELECT *
FROM latest_rows
WHERE rn = 1
  AND freshness.status = "Unhealthy"

Abrufen aller historischen Datensätze für eine Tabelle

SELECT *
FROM system.data_quality_monitoring.table_results
WHERE
  catalog_name = "c"
  AND schema_name = "s"
  AND table_name = "t"