Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Este artigo explica as limitações atuais da computação sem servidor para notebooks e trabalhos. Começa com uma visão geral das considerações mais importantes e, em seguida, fornece uma lista de referência abrangente de limitações.
Limitações gerais
Antes de criar novas cargas de trabalho ou migrar cargas de trabalho para computação sem servidor, primeiro considere as seguintes limitações:
- A linguagem R não é suportada.
- Apenas as APIs do Spark Connect são suportadas. As APIs RDD do Spark não são suportadas.
- O Spark Connect, que é usado pela computação sem servidor, adia a análise e a resolução de nomes para o tempo de execução, o que pode alterar o comportamento do seu código. Consulte Comparar o Spark Connect com o Spark Classic.
- ANSI SQL é o padrão ao escrever SQL. Desative o modo ANSI definindo
spark.sql.ansi.enabledcomofalse. - O Databricks Container Services não é suportado.
- Você deve usar o Unity Catalog para se conectar a fontes de dados externas. Use locais externos para acessar o armazenamento em nuvem.
- As funções definidas pelo utilizador (UDFs) não podem aceder à Internet. Por esta razão, o comando CREATE FUNCTION (Externo) não é suportado. O Databricks recomenda o uso de CREATE FUNCTION (SQL e Python) para criar UDFs.
- Código personalizado definido pelo utilizador, como UDFs,
map, emapPartitions, não pode exceder 1 GB de utilização de memória. - Ao criar um DataFrame a partir de dados locais usando
spark.createDataFrameo , os tamanhos de linha não podem exceder 128MB. - A interface do usuário do Spark não está disponível. Em vez disso, use o perfil de consulta para exibir informações sobre suas consultas do Spark. Consulte Perfil de consulta.
- Os logs do Spark não estão disponíveis. Os usuários só têm acesso aos logs de aplicativos do lado do cliente.
- O acesso entre espaços de trabalho só é permitido se os espaços de trabalho estiverem na mesma região e o espaço de trabalho de destino não tiver uma ACL IP ou um PrivateLink front-end configurado.
- Não há suporte para exibições temporárias globais. O Databricks recomenda o uso de exibições temporárias de sessão ou a criação de tabelas onde a passagem de dados entre sessões é necessária.
- As coordenadas Maven não são suportadas.
- O acesso ao DBFS é limitado. Use volumes do Unity Catalog ou ficheiros de área de trabalho em vez disso.
Limitações de streaming
- Não há suporte para intervalos de gatilho padrão ou baseados em tempo. Só o
Trigger.AvailableNowé suportado. Consulte Configurar intervalos de ativação do streaming estruturado. - Todas as limitações para streaming no modo de acesso padrão também se aplicam. Consulte Limitações de streaming.
Limitações dos notebooks
- Scala e R não são suportados em notebooks.
- As bibliotecas JAR não são suportadas em blocos de notas. Para obter soluções alternativas, consulte Práticas recomendadas para computação sem servidor. As tarefas JAR em trabalhos são suportadas. Consulte Tarefa JAR para trabalhos.
- As bibliotecas de notebook não são armazenadas em cache durante as sessões de desenvolvimento.
- Não há suporte para o compartilhamento de tabelas e exibições TEMP ao compartilhar um bloco de anotações entre usuários.
- O Preenchimento Automático e o Explorador de Variáveis para quadros de dados em cadernos não são suportados.
- Por padrão, os novos cadernos são salvos no formato
.ipynb. Se o seu bloco de notas estiver guardado no formato de origem, os metadados sem servidor poderão não ser capturados corretamente e algumas funcionalidades poderão não funcionar como esperado. - Não há suporte para tags de notebook. Use políticas de orçamento sem servidor para marcar o uso sem servidor.
Limitações do trabalho
- Os logs de tarefas não são isolados por tarefa executada. Os logs conterão a saída de várias tarefas.
- As bibliotecas de tarefas não são suportadas para tarefas do bloco de notas. Em vez disso, use bibliotecas ao nível de notebook. Veja Bibliotecas Python específicas para notebooks.
- Por padrão, os trabalhos sem servidor não têm tempo limite de execução de consulta. Você pode definir um tempo limite de execução para consultas de trabalho usando a
spark.databricks.execution.timeoutpropriedade. Para obter mais detalhes, consulte Configurar propriedades do Spark para blocos de anotações e trabalhos sem servidor.
Limitações específicas da computação
Não há suporte para os seguintes recursos específicos de computação:
- Políticas de computação
- Scripts de inicialização limitados ao escopo de computação
- Bibliotecas de computação, incluindo fontes de dados personalizadas e extensões do Spark. Em vez disso, use bibliotecas com escopo de notebook.
- Conjuntos de instâncias
- Calcular registos de eventos
- A maioria das configurações de computação do Apache Spark. Para obter uma lista de configurações suportadas, consulte Configurar propriedades do Spark para blocos de anotações e trabalhos sem servidor.
- Variáveis de ambiente. Em vez disso, o Databricks recomenda usar widgets para definir parâmetros de tarefas e de trabalho.
Limitações de cache
Os metadados são armazenados em cache em sessões de computação serverless. Por causa disso, o contexto da sessão pode não ser totalmente reiniciado ao mudar de catálogo. Para limpar o contexto da sessão, reinicie o recurso de computação serverless ou inicie uma nova sessão.
As APIs de dataframe e cache SQL não são suportadas na computação sem servidor. Usar qualquer uma destas APIs ou comandos SQL resulta numa exceção.
Limitações do Hive
Tabelas Hive SerDe não são suportadas. Além disso, o comando LOAD DATA correspondente que carrega dados em uma tabela Hive SerDe não é suportado. Usar o comando resultará em uma exceção.
O suporte para fontes de dados é limitado a AVRO, BINARYFILE, CSV, DELTA, JSON, KAFKA, ORC, PARQUET, ORC, TEXT e XML.
Variáveis Hive (por exemplo,
${env:var},${configName},${system:var}espark.sql.variable) ou referências de variáveis de configuração usando a sintaxe${var}não são suportadas. O uso de variáveis do Hive resultará em uma exceção.Em vez disso, use DECLARE VARIABLE, SET VARIABLEe referências de variáveis de sessão SQL e marcadores de parâmetro ('?', ou ':var') para declarar, modificar e referenciar o estado da sessão. Você também pode usar a cláusula IDENTIFIER para parametrizar nomes de objetos em muitos casos.
Fontes de dados suportadas
A computação sem servidor suporta as seguintes fontes de dados para operações DML (gravação, atualização, exclusão):
CSVJSONAVRODELTAKAFKAPARQUETORCTEXTUNITY_CATALOGBINARYFILEXMLSIMPLESCANICEBERG
A computação sem servidor suporta as seguintes fontes de dados para operações de leitura:
CSVJSONAVRODELTAKAFKAPARQUETORCTEXTUNITY_CATALOGBINARYFILEXMLSIMPLESCANICEBERGMYSQLPOSTGRESQLSQLSERVERREDSHIFTSNOWFLAKE-
SQLDW(Sinapse do Azure) DATABRICKSBIGQUERYORACLESALESFORCESALESFORCE_DATA_CLOUDTERADATAWORKDAY_RAASMONGODB