Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Os arquivos de espaço de trabalho são os arquivos armazenados e gerenciados no sistema de arquivos do espaço de trabalho Databricks. Os arquivos de espaço de trabalho podem ser praticamente qualquer tipo de arquivo. Exemplos comuns incluem o seguinte:
- Cadernos (
.ipynb) - Blocos de notas de origem (
.py,.sql,.re.scala) - Consultas SQL (
.dbquery.ipynb) - Painéis (
.lvdash.json) - Alertas (
.dbalert.json) - Arquivos Python (
.py) usados em módulos personalizados - Configuração YAML (
.yamlou.yml) - Arquivos de Markdown (
.md), comoREADME.md - Arquivos de texto (
.txt) ou outros pequenos arquivos de dados (.csv) - Bibliotecas (
.whl,.jar) - Arquivos de log (
.log)
Nota
Os espaços e experiências do Genie não podem ser arquivos de área de trabalho.
Para obter recomendações sobre como trabalhar com arquivos, consulte Recomendações para arquivos em volumes e arquivos de espaço de trabalho.
Sua árvore de arquivos do espaço de trabalho do Azure Databricks pode conter pastas anexadas a um repositório Git chamado "Pastas Git Databricks". As pastas Git têm algumas limitações adicionais de tipo de arquivo. Para obter uma lista dos tipos de arquivo suportados em pastas Git (anteriormente "Repos"), consulte Tipos de ativos suportados por pastas Git.
Importante
Os arquivos de espaço de trabalho são habilitados em todos os lugares por padrão no Databricks Runtime versão 11.2. Para cargas de trabalho de produção, use o Databricks Runtime 11.3 LTS ou superior. Entre em contato com o administrador do espaço de trabalho se não conseguir acessar essa funcionalidade.
O que você pode fazer com arquivos de espaço de trabalho?
O Azure Databricks fornece funcionalidade semelhante ao desenvolvimento local para muitos tipos de arquivo de espaço de trabalho, incluindo um editor de arquivos interno. Nem todos os casos de uso para todos os tipos de arquivo são suportados.
Você pode criar, editar e gerenciar o acesso a arquivos de espaço de trabalho usando padrões familiares de interações do bloco de anotações. Você pode usar caminhos relativos para importações de bibliotecas a partir de arquivos no espaço de trabalho, semelhante ao desenvolvimento local. Para obter mais detalhes, consulte:
- Uso básico de arquivos de espaço de trabalho
- Interagir programaticamente com arquivos de espaço de trabalho
- Trabalhar com módulos Python e R
- Exibir imagens
- Gerir os blocos de notas
- ACLs de ficheiro
Os scripts de inicialização armazenados em arquivos de espaço de trabalho têm um comportamento especial. Você pode usar arquivos de espaço de trabalho para armazenar e fazer referência a scripts de inicialização em qualquer versão do Databricks Runtime. Consulte Guardar scripts de inicialização em ficheiros do espaço de trabalho.
Nota
No Databricks Runtime 14.0 e superior, o diretório de trabalho atual padrão (CWD) para código executado localmente é o diretório que contém o bloco de anotações ou script que está sendo executado. Esta é uma mudança no comportamento do Databricks Runtime 13.3 LTS e inferior. Consulte Qual é o diretório de trabalho atual padrão?.
Limitações
- Se seu fluxo de trabalho usa código-fonte localizado em um repositório Git remoto, você não pode gravar no diretório atual ou gravar usando um caminho relativo. Grave dados em outras opções de localização.
- Não é possível usar comandos
gitquando se guarda em arquivos de espaço de trabalho. A criação de diretórios não é permitida em ficheiros de área de.gittrabalho. - A leitura de arquivos do espaço de trabalho usando executores do Spark (como
spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) não é suportada na computação sem servidor. - Os executores não podem gravar em arquivos de espaço de trabalho.
- Os links simbólicos são suportados apenas para diretórios de destino na pasta raiz
/Workspace, comoos.symlink("/Workspace/Users/someone@example.com/Testing", "Testing"). - Os arquivos de espaço de trabalho não podem ser acessados a partir de funções definidas pelo usuário (UDFs) em clusters com modo de acesso padrão no Databricks Runtime 14.2 e inferior.
- Notebooks são suportados apenas como arquivos de espaço de trabalho no Databricks Runtime 16.2 e superior e no ambiente sem servidor 2 e superior.
- Um notebook não pode ser importado como um módulo Python no Databricks Runtime 16.0 e superior. Em vez disso, altere o formato do bloco de anotações ou, se desejar que o código seja importado, refatore o bloco de anotações em um arquivo Python.
- Consultas, alertas e painéis são suportados apenas como arquivos de espaço de trabalho no Databricks Runtime 16.4 e superior, e no ambiente sem servidor 2 e superior. Além disso, esses arquivos de espaço de trabalho não podem ser renomeados.
- Apenas blocos de notas e ficheiros suportam a visualização e edição utilizando comandos do sistema de ficheiros, como
%sh ls. - O uso de comandos
dbutils.fspara acessar arquivos de espaço de trabalho não é suportado na computação sem servidor. Use uma célula%shem blocos de anotações ou comandos específicos da linguagem, comoshutilem Python ao executar blocos de anotações em computação sem servidor.
Limite de tamanho de ficheiro
- O tamanho do arquivo do espaço de trabalho é limitado a 500 MB. As operações que tentarem baixar ou criar arquivos maiores que esse limite falharão.
Limite de permissão de acesso a arquivos
A permissão para aceder a arquivos em pastas sob /Workspace expira após 36 horas para computação interativa e após 30 dias para trabalhos. O Databricks recomenda executar execuções longas como trabalhos se precisarem de acesso ao arquivo /Workspace.
Habilitar arquivos de espaço de trabalho
Para ativar o suporte para ficheiros que não sejam notebooks no seu espaço de trabalho Databricks, chame a API REST /api/2.0/workspace-conf a partir de um notebook ou outro ambiente com acesso ao seu espaço de trabalho Databricks. Os arquivos de espaço de trabalho são habilitados por padrão.
Para habilitar ou reativar o suporte para arquivos que não sejam de bloco de anotações em seu espaço de trabalho Databricks, chame o /api/2.0/workspace-conf e obtenha o valor da chave enableWorkspaceFileSystem. Se estiver definido como true, os ficheiros que não são do bloco de notas já estão ativados para a sua área de trabalho.
O exemplo a seguir demonstra como você pode chamar essa API de um bloco de anotações para verificar se os arquivos do espaço de trabalho estão desabilitados e, em caso afirmativo, reativá-los.