DatasetDefinition Classe

Define uma série de etapas que especificam como ler e transformar dados em um Dataset.

Observação

Esta classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Um conjunto de dados registrado em um espaço de trabalho do Azure Machine Learning pode ter várias definições, cada uma criada chamando update_definition. Cada definição tem um identificador único. A definição atual é a mais recente criada.

Para conjuntos de dados não registrados, existe apenas uma definição.

As definições de conjunto de dados suportam todas as transformações listadas para a <xref:azureml.dataprep.Dataflow> classe: consulte http://aka.ms/azureml/howto/transformdata. Para saber mais sobre Definições de Conjunto de Dados, vá para https://aka.ms/azureml/howto/versiondata.

Inicialize o objeto de definição Dataset.

Construtor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parâmetros

Name	Description
workspace Necessário	str O espaço de trabalho no qual o Dataset está registrado.
dataset_id Necessário	str O identificador do conjunto de dados.
version_id Necessário	str A versão da definição.
dataflow Necessário	str O objeto Dataflow.
dataflow_json Necessário	O JSON Dataflow.
notes Necessário	str Informações opcionais sobre a definição.
etag Necessário	str Etag.
created_time Necessário	datetime O tempo de criação da definição.
modified_time Necessário	datetime A última hora modificada da definição.
deprecated_by_dataset_id Necessário	str A ID do conjunto de dados que deprecia essa definição.
deprecated_by_definition_version Necessário	str A versão da definição que deprecia esta definição.
data_path Necessário	DataPath O caminho de dados.
dataset Necessário	Dataset O objeto Dataset pai.

Métodos

archive	Arquive a definição do conjunto de dados.
create_snapshot	Crie um instantâneo do conjunto de dados registrado.
deprecate	Remova o Dataset, com um ponteiro para o novo Dataset.
reactivate	Reative a definição do conjunto de dados. Funciona em definições de conjunto de dados que foram preteridas ou arquivadas.
to_pandas_dataframe	Crie um dataframe Pandas executando o pipeline de transformação definido por essa definição de conjunto de dados.
to_spark_dataframe	Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por esse fluxo de dados.

create_snapshot

Crie um instantâneo do conjunto de dados registrado.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parâmetros

Name	Description
snapshot_name Necessário	str O nome do instantâneo. Os nomes de instantâneo devem ser exclusivos dentro de um Dataset.
compute_target	ComputeTarget ou str O destino de computação para executar a criação do perfil de instantâneo. Se omitido, o cálculo local é usado. Default value: None
create_data_snapshot	bool Se True, uma cópia materializada dos dados será criada. Default value: False
target_datastore	Union[AbstractAzureStorageDatastore, str] O armazenamento de dados de destino onde salvar o instantâneo. Se omitido, o instantâneo será criado no armazenamento padrão do espaço de trabalho. Default value: None

Devoluções

Tipo	Description
DatasetSnapshot	Um objeto DatasetSnapshot.

Observações

Os instantâneos capturam estatísticas de resumo point-in-time dos dados subjacentes e uma cópia opcional dos próprios dados. Para saber mais sobre como criar instantâneos, vá para https://aka.ms/azureml/howto/createsnapshots.

deprecate

Remova o Dataset, com um ponteiro para o novo Dataset.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parâmetros

Name	Description
deprecate_by_dataset_id Necessário	uuid A ID do conjunto de dados que é responsável pela substituição do conjunto de dados atual.
deprecated_by_definition_version	str A versão de definição do conjunto de dados que é responsável pela substituição da definição atual do conjunto de dados. Default value: None

Devoluções

Tipo	Description
None	Nenhum.

Observações

As definições de conjunto de dados preteridas registrarão avisos quando forem consumidas. Para bloquear completamente o consumo de uma definição de conjunto de dados, arquive-a.

Se uma definição de conjunto de dados for preterida por acidente, use reactivate para ativá-la.

reactivate

Reative a definição do conjunto de dados.

Funciona em definições de conjunto de dados que foram preteridas ou arquivadas.

reactivate()

Devoluções

Tipo	Description
None	Nenhum.

to_pandas_dataframe

Crie um dataframe Pandas executando o pipeline de transformação definido por essa definição de conjunto de dados.

to_pandas_dataframe()

Devoluções

Tipo	Description
DataFrame	Um DataFrame Pandas.

Observações

Retornar um Pandas DataFrame totalmente materializado na memória.

to_spark_dataframe

Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por esse fluxo de dados.

to_spark_dataframe()

Devoluções

Tipo	Description
DataFrame	Um DataFrame do Spark.

Observações

O Spark Dataframe retornado é apenas um plano de execução e não contém dados, pois os Spark Dataframes são avaliados preguiçosamente.

Feedback

Esta página foi útil?

Partilhar via

DatasetDefinition Classe

Construtor

Parâmetros

Métodos

archive

Devoluções

Observações

create_snapshot

Parâmetros

Devoluções

Observações

deprecate

Parâmetros

Devoluções

Observações

reactivate

Devoluções

to_pandas_dataframe

Devoluções

Observações

to_spark_dataframe

Devoluções

Observações

Feedback