Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Observação
Este artigo aborda o Databricks Connect para Databricks Runtime 13.3 LTS e superior.
O Databricks Connect permite que você se conecte à computação do Databricks de um ambiente de desenvolvimento local fora do Databricks. Em seguida, você pode desenvolver, depurar e testar seu código diretamente do seu IDE antes de mover seu código para um notebook ou trabalho no Databricks. Confira O que é o Databricks Connect?.
Portabilidade
Para tornar a transição do desenvolvimento local para a implantação para o Databricks perfeita, todas as APIs do Databricks Connect estão disponíveis nos notebooks do Databricks como parte do Databricks Runtime correspondente. Isso permite que você execute seu código em um notebook do Databricks sem nenhuma alteração em seu código.
Comportamento de DatabricksSession
O comportamento de DatabricksSession difere ligeiramente ao usar o Databricks Connect em um ambiente de desenvolvimento local e em notebooks e tarefas no workspace do Databricks.
Comportamento do ambiente de desenvolvimento local
Ao executar o código localmente dentro de um IDE fora do Databricks, DatabricksSession.builder.getOrCreate() obtém a sessão do Spark existente para a configuração fornecida se ela existir ou cria uma nova sessão do Spark se ela não existir.
DatabricksSession.builder.create() sempre cria uma nova sessão do Spark. Parâmetros de conexão como host, token e cluster_id são preenchidos a partir do código-fonte, variáveis de ambiente ou do arquivo de perfis de configuração .databrickscfg.
Em outras palavras, quando executado usando o Databricks Connect, o código a seguir cria duas sessões separadas:
spark1 = DatabricksSession.builder.create()
spark2 = DatabricksSession.builder.create()
Comportamento do workspace do Databricks
Ao executar código em um notebook ou trabalho no workspace do Databricks, DatabricksSession.builder.getOrCreate() retorna a sessão padrão do Spark (também acessível por meio da variável spark) quando usada sem nenhuma configuração adicional. A variável spark é pré-configurada para se conectar à instância de computação à qual o notebook ou o trabalho está anexado. Uma nova sessão do Spark será criada se parâmetros de conexão adicionais forem definidos, por exemplo, usando DatabricksSession.builder.clusterId(...).getOrCreate() ou DatabricksSession.builder.serverless().getOrCreate().
DatabricksSession.builder.create() requer parâmetros de conexão explícitos em um notebook, como DatabricksSession.builder.clusterId(...).create(), caso contrário, retorna um erro [UNSUPPORTED].
É possível adotar o Databricks Connect para se conectar à computação do Databricks que não está anexada ao notebook ou ao trabalho usando remote(), que emprega uma configuração kwargs ou os métodos de configuração individuais, como host() ou token(). Nesses casos, uma nova sessão é criada para a computação referenciada, semelhante a quando ela é usada fora de um notebook ou trabalho do Databricks.
Observação
Para notebooks em execução na computação sem servidor, as consultas esgotam após 9.000 segundos por padrão. Você pode personalizar isso definindo a propriedade de configuração do Spark spark.databricks.execution.timeout. Consulte Definir propriedades de configuração do Spark no Azure Databricks.