Compartilhar via


DatasetDefinition Classe

Define uma série de etapas que especificam como ler e transformar dados em um conjunto de dados.

Observação

Essa classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Um conjunto de dados registrado em um workspace do Azure Machine Learning pode ter várias definições, cada uma criada chamando update_definition. Cada definição tem um identificador exclusivo. A definição atual é a mais recente criada.

Para conjuntos de dados não registrados, existe apenas uma definição.

As definições de conjunto de dados dão suporte a todas as transformações listadas para a <xref:azureml.dataprep.Dataflow> classe: consulte http://aka.ms/azureml/howto/transformdata. Para saber mais sobre definições de conjunto de dados, acesse https://aka.ms/azureml/howto/versiondata.

Inicialize o objeto de definição do conjunto de dados.

Construtor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parâmetros

Nome Description
workspace
Obrigatório
str

O workspace no qual o conjunto de dados está registrado.

dataset_id
Obrigatório
str

O identificador do conjunto de dados.

version_id
Obrigatório
str

A versão de definição.

dataflow
Obrigatório
str

O objeto Dataflow.

dataflow_json
Obrigatório

O json de fluxo de dados.

notes
Obrigatório
str

Informações opcionais sobre a definição.

etag
Obrigatório
str

Etag.

created_time
Obrigatório

A hora de criação da definição.

modified_time
Obrigatório

A hora da última modificação da definição.

deprecated_by_dataset_id
Obrigatório
str

A ID do conjunto de dados que preteri essa definição.

deprecated_by_definition_version
Obrigatório
str

A versão da definição que preteri essa definição.

data_path
Obrigatório

O caminho de dados.

dataset
Obrigatório

O objeto dataset pai.

Métodos

archive

Arquive a definição do conjunto de dados.

create_snapshot

Crie um instantâneo do conjunto de dados registrado.

deprecate

Preterir o conjunto de dados, com um ponteiro para o novo conjunto de dados.

reactivate

Reativar a definição do conjunto de dados.

Funciona em definições de conjunto de dados que foram preteridas ou arquivadas.

to_pandas_dataframe

Crie um dataframe do Pandas executando o pipeline de transformação definido por essa definição de conjunto de dados.

to_spark_dataframe

Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por esse fluxo de dados.

archive

Arquive a definição do conjunto de dados.

archive()

Retornos

Tipo Description

Nenhum.

Comentários

Após o arquivamento, qualquer tentativa de recuperar o conjunto de dados resultará em um erro. Se arquivado por acidente, use reactivate para ativá-lo.

create_snapshot

Crie um instantâneo do conjunto de dados registrado.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parâmetros

Nome Description
snapshot_name
Obrigatório
str

O nome do instantâneo. Os nomes de instantâneo devem ser exclusivos em um conjunto de dados.

compute_target

O destino de computação para executar a criação do perfil de instantâneo. Se omitido, a computação local será usada.

Valor padrão: None
create_data_snapshot

Se True, uma cópia materializada dos dados será criada.

Valor padrão: False
target_datastore

O armazenamento de dados de destino onde salvar o instantâneo. Se omitido, o instantâneo será criado no armazenamento padrão do workspace.

Valor padrão: None

Retornos

Tipo Description

Um objeto DatasetSnapshot.

Comentários

Instantâneos capturam estatísticas de resumo pontual dos dados subjacentes e uma cópia opcional dos dados em si. Para saber mais sobre como criar instantâneos, acesse https://aka.ms/azureml/howto/createsnapshots.

deprecate

Preterir o conjunto de dados, com um ponteiro para o novo conjunto de dados.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parâmetros

Nome Description
deprecate_by_dataset_id
Obrigatório

A ID do conjunto de dados responsável pela substituição do conjunto de dados atual.

deprecated_by_definition_version
str

A versão de definição do conjunto de dados responsável pela substituição da definição do conjunto de dados atual.

Valor padrão: None

Retornos

Tipo Description

Nenhum.

Comentários

Definições de conjunto de dados preteridas registrarão avisos quando forem consumidas. Para impedir completamente que uma definição de conjunto de dados seja consumida, arquive-a.

Se uma definição de conjunto de dados for preterida por acidente, use reactivate para ativá-la.

reactivate

Reativar a definição do conjunto de dados.

Funciona em definições de conjunto de dados que foram preteridas ou arquivadas.

reactivate()

Retornos

Tipo Description

Nenhum.

to_pandas_dataframe

Crie um dataframe do Pandas executando o pipeline de transformação definido por essa definição de conjunto de dados.

to_pandas_dataframe()

Retornos

Tipo Description

Um DataFrame do Pandas.

Comentários

Retornar um DataFrame pandas totalmente materializado na memória.

to_spark_dataframe

Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por esse fluxo de dados.

to_spark_dataframe()

Retornos

Tipo Description

Um DataFrame do Spark.

Comentários

O Dataframe do Spark retornado é apenas um plano de execução e não contém dados, pois os Dataframes do Spark são avaliados lentamente.