Freigeben über


DatasetSnapshot Klasse

Verwaltet Datasetmomentaufnahmen mit Vorgängen, um einen Snapsot abzurufen, seinen Status zurückzugeben und in einen Datenframe zu konvertieren.

Hinweis

Diese Klasse ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Ein DataSnapshot-Objekt wird von der create_snapshot Methode der Dataset Klasse zurückgegeben.

Die Datasetmomentaufnahme ist eine Kombination aus Profil und einer optionalen materialisierten Kopie der Daten.

Weitere Informationen zu Datasetmomentaufnahmen finden Sie unter https://aka.ms/azureml/howto/createsnapshots

Konstruktor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parameter

Name Beschreibung
workspace
Erforderlich
<xref:azureml.core.Workspace.>

Der Arbeitsbereich, in dem das Dataset registriert ist.

snapshot_name
Erforderlich
str

Der Name der Dataset-Momentaufnahme.

dataset_id
Erforderlich
str

Der Bezeichner des Datasets.

definition_version
Erforderlich
str

Die Definitionsversion des Datasets.

time_stamp
Erforderlich

Die Erstellungszeit der Momentaufnahme.

profile_action_id
Erforderlich
str

Die Aktions-ID des Momentaufnahmeprofils.

datastore_name
Erforderlich
str

Der Name des Snapshot-Datenspeichers.

relative_path
Erforderlich
str

Der relative Pfad zu den Momentaufnahmedaten.

dataset_name
Erforderlich
str

Der Name des Datasets.

Methoden

compare_profiles

Vergleichen Sie das aktuelle Datasetprofil mit rhs_dataset Profil.

Wenn Profile nicht vorhanden sind, löst diese Methode eine Ausnahme aus.

get

Rufen Sie die Momentaufnahme des Datasets anhand des Snapshotnamens ab.

get_all

Rufen Sie alle Momentaufnahmen des angegebenen Datasets ab.

get_profile

Rufen Sie das Profil der Dataset-Momentaufnahme ab.

get_status

Rufen Sie den Erstellungsstatus der Datasetmomentaufnahme ab.

is_data_snapshot_available

Überprüfen Sie, ob die materialisierte Kopie der Momentaufnahme verfügbar ist.

to_pandas_dataframe

Erstellen Sie einen Pandas DataFrame, indem Sie die mit der Momentaufnahme gespeicherten Daten laden.

to_spark_dataframe

Erstellen Sie einen Spark DataFrame, indem Sie die mit der Momentaufnahme gespeicherten Daten laden.

wait_for_completion

Warten Sie auf den Abschluss des DatasetSnapshot-Generaton.

compare_profiles

Vergleichen Sie das aktuelle Datasetprofil mit rhs_dataset Profil.

Wenn Profile nicht vorhanden sind, löst diese Methode eine Ausnahme aus.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parameter

Name Beschreibung
rhs_dataset_snapshot
Erforderlich

Die Dataset-Momentaufnahme, mit der verglichen werden soll.

include_columns

Eine Liste der Spaltennamen, die im Vergleich enthalten sein sollen.

Standardwert: None
exclude_columns

Eine Liste der Spaltennamen, die im Vergleich ausgeschlossen werden sollen.

Standardwert: None
histogram_compare_method

Eine Enumeration, die die Vergleichsmethode beschreibt, z. B. WASSERSTEIN oder ENERGY.

Standardwert: HistogramCompareMethod.WASSERSTEIN

Gibt zurück

Typ Beschreibung
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Der Unterschied zwischen den Profilen.

get

Rufen Sie die Momentaufnahme des Datasets anhand des Snapshotnamens ab.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich, in dem das Dataset registriert ist.

snapshot_name
Erforderlich
str

Der Name der Dataset-Momentaufnahme.

dataset_name
Erforderlich

Der Name des Datasets.

dataset_id
Erforderlich

Der Bezeichner des Datasets.

Gibt zurück

Typ Beschreibung

Ein DatasetSnapshot-Objekt.

get_all

Rufen Sie alle Momentaufnahmen des angegebenen Datasets ab.

static get_all(workspace, dataset_name)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich, in dem das Dataset registriert ist.

dataset_name
Erforderlich

Der Name des Datasets.

Gibt zurück

Typ Beschreibung

Eine Liste der Datasetmomentaufnahmen

get_profile

Rufen Sie das Profil der Dataset-Momentaufnahme ab.

get_profile()

Gibt zurück

Typ Beschreibung
<xref:azureml.dataprep.DataProfile>

DataProfile der Dataset-Momentaufnahme

get_status

Rufen Sie den Erstellungsstatus der Datasetmomentaufnahme ab.

get_status()

Gibt zurück

Typ Beschreibung
str

Der Status der Dataset-Momentaufnahme.

is_data_snapshot_available

Überprüfen Sie, ob die materialisierte Kopie der Momentaufnahme verfügbar ist.

is_data_snapshot_available()

Gibt zurück

Typ Beschreibung

True, wenn die Datenmomentaufnahme verfügbar ist.

to_pandas_dataframe

Erstellen Sie einen Pandas DataFrame, indem Sie die mit der Momentaufnahme gespeicherten Daten laden.

to_pandas_dataframe()

Gibt zurück

Typ Beschreibung

Ein Pandas DataFrame.

Hinweise

Der Pandas DataFrame ist vollständig im Arbeitsspeicher materialisiert. Wenn die Momentaufnahme mit create_data_snapshot=Falseerstellt wurde, wird eine Ausnahme ausgelöst. Verwenden Sie die Funktion is_data_snapshot_available, um zu überprüfen, ob die Momentaufnahme Daten enthält.

to_spark_dataframe

Erstellen Sie einen Spark DataFrame, indem Sie die mit der Momentaufnahme gespeicherten Daten laden.

to_spark_dataframe()

Gibt zurück

Typ Beschreibung

Ein Spark DataFrame.

Hinweise

Der zurückgegebene Spark Dataframe ist nur ein Ausführungsplan und enthält tatsächlich keine Daten, da Spark Dataframes lazily ausgewertet werden. Wenn die Momentaufnahme mit create_data_snapshot=Falseerstellt wurde, wird eine Ausnahme ausgelöst, wenn Sie versuchen, auf die Daten zuzugreifen. Um zu überprüfen, ob die Momentaufnahme Daten enthält, verwenden Sie is_data_snapshot_available.

wait_for_completion

Warten Sie auf den Abschluss des DatasetSnapshot-Generaton.

wait_for_completion(show_output=True, status_update_frequency=10)

Parameter

Name Beschreibung
show_output

Gibt an, ob die Methode die Ausgabe druckt.

Standardwert: True
status_update_frequency
int

Die Statusaktualisierungshäufigkeit der Aktion in Sekunden.

Standardwert: 10

Attribute

dataset_id

Rufen Sie den Datasetbezeichner ab.

Gibt zurück

Typ Beschreibung
str

Die Dataset-ID.

name

Rufen Sie den Snapshotnamen des Datasets ab.

Gibt zurück

Typ Beschreibung
str

Der Snapshotname des Datasets.

workspace

Rufen Sie den Azure Machine Learning-Arbeitsbereich ab, in dem das Dataset registriert ist.

Gibt zurück

Typ Beschreibung

Der Arbeitsbereich, in dem das Dataset registriert ist.