DatasetSnapshot Klasse
Verwaltet Datasetmomentaufnahmen mit Vorgängen, um einen Snapsot abzurufen, seinen Status zurückzugeben und in einen Datenframe zu konvertieren.
Hinweis
Diese Klasse ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
Ein DataSnapshot-Objekt wird von der create_snapshot Methode der Dataset Klasse zurückgegeben.
Die Datasetmomentaufnahme ist eine Kombination aus Profil und einer optionalen materialisierten Kopie der Daten.
Weitere Informationen zu Datasetmomentaufnahmen finden Sie unter https://aka.ms/azureml/howto/createsnapshots
Konstruktor
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parameter
| Name | Beschreibung |
|---|---|
|
workspace
Erforderlich
|
<xref:azureml.core.Workspace.>
Der Arbeitsbereich, in dem das Dataset registriert ist. |
|
snapshot_name
Erforderlich
|
Der Name der Dataset-Momentaufnahme. |
|
dataset_id
Erforderlich
|
Der Bezeichner des Datasets. |
|
definition_version
Erforderlich
|
Die Definitionsversion des Datasets. |
|
time_stamp
Erforderlich
|
Die Erstellungszeit der Momentaufnahme. |
|
profile_action_id
Erforderlich
|
Die Aktions-ID des Momentaufnahmeprofils. |
|
datastore_name
Erforderlich
|
Der Name des Snapshot-Datenspeichers. |
|
relative_path
Erforderlich
|
Der relative Pfad zu den Momentaufnahmedaten. |
|
dataset_name
Erforderlich
|
Der Name des Datasets. |
Methoden
| compare_profiles |
Vergleichen Sie das aktuelle Datasetprofil mit rhs_dataset Profil. Wenn Profile nicht vorhanden sind, löst diese Methode eine Ausnahme aus. |
| get |
Rufen Sie die Momentaufnahme des Datasets anhand des Snapshotnamens ab. |
| get_all |
Rufen Sie alle Momentaufnahmen des angegebenen Datasets ab. |
| get_profile |
Rufen Sie das Profil der Dataset-Momentaufnahme ab. |
| get_status |
Rufen Sie den Erstellungsstatus der Datasetmomentaufnahme ab. |
| is_data_snapshot_available |
Überprüfen Sie, ob die materialisierte Kopie der Momentaufnahme verfügbar ist. |
| to_pandas_dataframe |
Erstellen Sie einen Pandas DataFrame, indem Sie die mit der Momentaufnahme gespeicherten Daten laden. |
| to_spark_dataframe |
Erstellen Sie einen Spark DataFrame, indem Sie die mit der Momentaufnahme gespeicherten Daten laden. |
| wait_for_completion |
Warten Sie auf den Abschluss des DatasetSnapshot-Generaton. |
compare_profiles
Vergleichen Sie das aktuelle Datasetprofil mit rhs_dataset Profil.
Wenn Profile nicht vorhanden sind, löst diese Methode eine Ausnahme aus.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parameter
| Name | Beschreibung |
|---|---|
|
rhs_dataset_snapshot
Erforderlich
|
Die Dataset-Momentaufnahme, mit der verglichen werden soll. |
|
include_columns
|
Eine Liste der Spaltennamen, die im Vergleich enthalten sein sollen. Standardwert: None
|
|
exclude_columns
|
Eine Liste der Spaltennamen, die im Vergleich ausgeschlossen werden sollen. Standardwert: None
|
|
histogram_compare_method
|
Eine Enumeration, die die Vergleichsmethode beschreibt, z. B. WASSERSTEIN oder ENERGY. Standardwert: HistogramCompareMethod.WASSERSTEIN
|
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Der Unterschied zwischen den Profilen. |
get
Rufen Sie die Momentaufnahme des Datasets anhand des Snapshotnamens ab.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parameter
| Name | Beschreibung |
|---|---|
|
workspace
Erforderlich
|
Der Arbeitsbereich, in dem das Dataset registriert ist. |
|
snapshot_name
Erforderlich
|
Der Name der Dataset-Momentaufnahme. |
|
dataset_name
Erforderlich
|
Der Name des Datasets. |
|
dataset_id
Erforderlich
|
Der Bezeichner des Datasets. |
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Ein DatasetSnapshot-Objekt. |
get_all
Rufen Sie alle Momentaufnahmen des angegebenen Datasets ab.
static get_all(workspace, dataset_name)
Parameter
| Name | Beschreibung |
|---|---|
|
workspace
Erforderlich
|
Der Arbeitsbereich, in dem das Dataset registriert ist. |
|
dataset_name
Erforderlich
|
Der Name des Datasets. |
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Eine Liste der Datasetmomentaufnahmen |
get_profile
Rufen Sie das Profil der Dataset-Momentaufnahme ab.
get_profile()
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
<xref:azureml.dataprep.DataProfile>
|
DataProfile der Dataset-Momentaufnahme |
get_status
Rufen Sie den Erstellungsstatus der Datasetmomentaufnahme ab.
get_status()
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Der Status der Dataset-Momentaufnahme. |
is_data_snapshot_available
Überprüfen Sie, ob die materialisierte Kopie der Momentaufnahme verfügbar ist.
is_data_snapshot_available()
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
True, wenn die Datenmomentaufnahme verfügbar ist. |
to_pandas_dataframe
Erstellen Sie einen Pandas DataFrame, indem Sie die mit der Momentaufnahme gespeicherten Daten laden.
to_pandas_dataframe()
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Ein Pandas DataFrame. |
Hinweise
Der Pandas DataFrame ist vollständig im Arbeitsspeicher materialisiert. Wenn die Momentaufnahme mit create_data_snapshot=Falseerstellt wurde, wird eine Ausnahme ausgelöst. Verwenden Sie die Funktion is_data_snapshot_available, um zu überprüfen, ob die Momentaufnahme Daten enthält.
to_spark_dataframe
Erstellen Sie einen Spark DataFrame, indem Sie die mit der Momentaufnahme gespeicherten Daten laden.
to_spark_dataframe()
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Ein Spark DataFrame. |
Hinweise
Der zurückgegebene Spark Dataframe ist nur ein Ausführungsplan und enthält tatsächlich keine Daten, da Spark Dataframes lazily ausgewertet werden. Wenn die Momentaufnahme mit create_data_snapshot=Falseerstellt wurde, wird eine Ausnahme ausgelöst, wenn Sie versuchen, auf die Daten zuzugreifen. Um zu überprüfen, ob die Momentaufnahme Daten enthält, verwenden Sie is_data_snapshot_available.
wait_for_completion
Warten Sie auf den Abschluss des DatasetSnapshot-Generaton.
wait_for_completion(show_output=True, status_update_frequency=10)
Parameter
| Name | Beschreibung |
|---|---|
|
show_output
|
Gibt an, ob die Methode die Ausgabe druckt. Standardwert: True
|
|
status_update_frequency
|
Die Statusaktualisierungshäufigkeit der Aktion in Sekunden. Standardwert: 10
|
Attribute
dataset_id
name
Rufen Sie den Snapshotnamen des Datasets ab.
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Der Snapshotname des Datasets. |
workspace
Rufen Sie den Azure Machine Learning-Arbeitsbereich ab, in dem das Dataset registriert ist.
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Der Arbeitsbereich, in dem das Dataset registriert ist. |