DatasetDefinition Classe
Define uma série de etapas que especificam como ler e transformar dados em um Dataset.
Observação
Esta classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
Um conjunto de dados registrado em um espaço de trabalho do Azure Machine Learning pode ter várias definições, cada uma criada chamando update_definition. Cada definição tem um identificador único. A definição atual é a mais recente criada.
Para conjuntos de dados não registrados, existe apenas uma definição.
As definições de conjunto de dados suportam todas as transformações listadas para a <xref:azureml.dataprep.Dataflow> classe: consulte http://aka.ms/azureml/howto/transformdata. Para saber mais sobre Definições de Conjunto de Dados, vá para https://aka.ms/azureml/howto/versiondata.
Inicialize o objeto de definição Dataset.
Construtor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parâmetros
| Name | Description |
|---|---|
|
workspace
Necessário
|
O espaço de trabalho no qual o Dataset está registrado. |
|
dataset_id
Necessário
|
O identificador do conjunto de dados. |
|
version_id
Necessário
|
A versão da definição. |
|
dataflow
Necessário
|
O objeto Dataflow. |
|
dataflow_json
Necessário
|
O JSON Dataflow. |
|
notes
Necessário
|
Informações opcionais sobre a definição. |
|
etag
Necessário
|
Etag. |
|
created_time
Necessário
|
O tempo de criação da definição. |
|
modified_time
Necessário
|
A última hora modificada da definição. |
|
deprecated_by_dataset_id
Necessário
|
A ID do conjunto de dados que deprecia essa definição. |
|
deprecated_by_definition_version
Necessário
|
A versão da definição que deprecia esta definição. |
|
data_path
Necessário
|
O caminho de dados. |
|
dataset
Necessário
|
O objeto Dataset pai. |
Métodos
| archive |
Arquive a definição do conjunto de dados. |
| create_snapshot |
Crie um instantâneo do conjunto de dados registrado. |
| deprecate |
Remova o Dataset, com um ponteiro para o novo Dataset. |
| reactivate |
Reative a definição do conjunto de dados. Funciona em definições de conjunto de dados que foram preteridas ou arquivadas. |
| to_pandas_dataframe |
Crie um dataframe Pandas executando o pipeline de transformação definido por essa definição de conjunto de dados. |
| to_spark_dataframe |
Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por esse fluxo de dados. |
archive
Arquive a definição do conjunto de dados.
archive()
Devoluções
| Tipo | Description |
|---|---|
|
Nenhum. |
Observações
Após o arquivamento, qualquer tentativa de recuperar o conjunto de dados resultará em um erro. Se arquivado por acidente, use reactivate para ativá-lo.
create_snapshot
Crie um instantâneo do conjunto de dados registrado.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parâmetros
| Name | Description |
|---|---|
|
snapshot_name
Necessário
|
O nome do instantâneo. Os nomes de instantâneo devem ser exclusivos dentro de um Dataset. |
|
compute_target
|
ComputeTarget ou
str
O destino de computação para executar a criação do perfil de instantâneo. Se omitido, o cálculo local é usado. Default value: None
|
|
create_data_snapshot
|
Se True, uma cópia materializada dos dados será criada. Default value: False
|
|
target_datastore
|
O armazenamento de dados de destino onde salvar o instantâneo. Se omitido, o instantâneo será criado no armazenamento padrão do espaço de trabalho. Default value: None
|
Devoluções
| Tipo | Description |
|---|---|
|
Um objeto DatasetSnapshot. |
Observações
Os instantâneos capturam estatísticas de resumo point-in-time dos dados subjacentes e uma cópia opcional dos próprios dados. Para saber mais sobre como criar instantâneos, vá para https://aka.ms/azureml/howto/createsnapshots.
deprecate
Remova o Dataset, com um ponteiro para o novo Dataset.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parâmetros
| Name | Description |
|---|---|
|
deprecate_by_dataset_id
Necessário
|
A ID do conjunto de dados que é responsável pela substituição do conjunto de dados atual. |
|
deprecated_by_definition_version
|
A versão de definição do conjunto de dados que é responsável pela substituição da definição atual do conjunto de dados. Default value: None
|
Devoluções
| Tipo | Description |
|---|---|
|
Nenhum. |
Observações
As definições de conjunto de dados preteridas registrarão avisos quando forem consumidas. Para bloquear completamente o consumo de uma definição de conjunto de dados, arquive-a.
Se uma definição de conjunto de dados for preterida por acidente, use reactivate para ativá-la.
reactivate
Reative a definição do conjunto de dados.
Funciona em definições de conjunto de dados que foram preteridas ou arquivadas.
reactivate()
Devoluções
| Tipo | Description |
|---|---|
|
Nenhum. |
to_pandas_dataframe
Crie um dataframe Pandas executando o pipeline de transformação definido por essa definição de conjunto de dados.
to_pandas_dataframe()
Devoluções
| Tipo | Description |
|---|---|
|
Um DataFrame Pandas. |
Observações
Retornar um Pandas DataFrame totalmente materializado na memória.
to_spark_dataframe
Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por esse fluxo de dados.
to_spark_dataframe()
Devoluções
| Tipo | Description |
|---|---|
|
Um DataFrame do Spark. |
Observações
O Spark Dataframe retornado é apenas um plano de execução e não contém dados, pois os Spark Dataframes são avaliados preguiçosamente.