Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Os usuários desenvolvedores do Databricks contemplam cientistas de dados, engenheiros de dados, analistas de dados, engenheiros de aprendizado de máquina, bem como engenheiros de DevOps e MLOps, todos criando soluções e integrações para estender e personalizar o Databricks para suas necessidades específicas. Além das muitas APIs do Databricks e dos recursos de engenharia de dados disponíveis no workspace, também há muitas ferramentas para se conectar ao Databricks e desenvolver localmente que dão suporte a usuários desenvolvedores do Databricks.
Este artigo fornece uma visão geral das APIs e ferramentas disponíveis para usuários desenvolvedores do Databricks.
Iniciar a codificação no espaço de trabalho
O desenvolvimento no workspace é uma ótima forma de se familiarizar rapidamente com as APIs do Databricks. O Databricks dá suporte a Python, SQL, Scala, R e outros recursos focados no desenvolvedor no workspace, incluindo ferramentas e utilitários proveitosos.
Estas são algumas formas de começar:
- Leia uma visão geral e encontre links para tutoriais sobre vários cenários para Python, Scala e R. Para obter uma tabela de ferramentas com suporte em vária linguagens, consulte Visão geral de linguagens.
- Navegue pela Referência de linguagem do SQL para ver a profundidade e a amplitude dos recursos.
- Trabalhe com o Tutorial: carregar e transformar dados usando DataFrames do Apache Spark em Python, Scala ou R para obter uma introdução às APIs do Spark. Há outros exemplos simples do PySpark em Noções básicas do PySpark.
- Procure a documentação de referência disponível, incluindo a referência da API REST que fornece uma boa imagem dos objetos do Databricks que também podem ser criados e modificados com outras ferramentas.
- Instale o SDK do Python em um notebook e escreva uma função simples.
- Mova alguns arquivos usando os comandos dos Utilitários Databricks
fspara se familiarizar com o uso dos utilitáriosdbutilspara manipular o ambiente do Databricks.
Criar aplicativos e soluções personalizados
O Azure Databricks fornece ferramentas tanto para o ambiente de trabalho quanto para o desenvolvimento local. No workspace, você pode criar aplicativos usando a interface do usuário, acessar facilmente os dados em volumes e arquivos do workspace no Catálogo do Unity. Há recursos exclusivos do workspace disponíveis, como o Assistente do Databricks para depuração. Outras funcionalidades como os notebooks são completas, e o controle do código-fonte está disponível com pastas do Git.
Como alternativa, desenvolva soluções personalizadas usando um IDE no seu computador local para usufruir de toda a funcionalidade de um ambiente de desenvolvimento avançado. O desenvolvimento local dá suporte a uma variedade mais ampla de linguagens, o que significa que recursos dependentes de linguagens, como estruturas de depuração e teste, estão disponíveis para dar suporte a projetos maiores, juntamente com o acesso direto ao controle do código-fonte.
Para obter recomendações de uso de ferramentas, consulte Qual ferramenta de desenvolvedor devo usar?.
| Recurso | Descrição |
|---|---|
| Autenticar e autorizar | Configure a autenticação e a autorização para que suas ferramentas, scripts e aplicativos funcionem com o Azure Databricks. |
| Aplicativos do Databricks | Crie dados seguros e aplicativos personalizados de IA na plataforma Databricks, os quais você pode compartilhar com outros usuários. |
| Extensão do Databricks para Visual Studio Code | Conecte-se aos workspaces remotos do Azure Databricks no Visual Studio Code para obter uma configuração fácil da conexão com o workspace do Databricks e uma interface do usuário para gerenciar recursos do Databricks. |
| Plug-in Databricks do PyCharm | Configure uma conexão com um workspace remoto do *Databricks* e execute arquivos em clusters do *Databricks* a partir do PyCharm. Esse plug-in é desenvolvido e fornecido pela JetBrains em parceria com o Databricks. |
| SDKs do Databricks | Automatize suas interações com o Databricks usando um SDK em vez de chamar diretamente as APIs REST. Os SDKs também estão disponíveis no workspace. |
Conectar-se ao Databricks
Conectar-se ao Databricks é um componente necessário em muitas integrações e soluções, e o Databricks fornece uma grande seleção de opções de ferramentas de conexão. A tabela a seguir fornece ferramentas para conectar o ambiente de desenvolvimento e processos ao seus workspace e recursos do Azure Databricks.
| Recurso | Descrição |
|---|---|
| Conexão do Databricks | Conecte-se ao Azure Databricks usando IDEs (ambientes de desenvolvimento integrados) populares, como PyCharm, IntelliJ IDEA, Eclipse, RStudio e JupyterLab. |
| Extensão do Databricks para Visual Studio Code | É fácil configurar a sua conexão com o workspace do Databricks, além de oferecer uma interface de usuário para gerenciar recursos do Databricks. |
| Drivers e ferramentas SQL | Conecte-se ao Azure Databricks para executar scripts e comandos SQL, interagir programaticamente com o Azure Databricks e integrar a funcionalidade do SQL do Azure Databricks a aplicativos escritos em linguagens populares, como Python, Go, JavaScript e TypeScript. |
Dica
Você também pode conectar muitas ferramentas adicionais populares de terceiros a clusters e SQL Warehouses para acessar os dados no Azure Databricks. Confira os Parceiros de tecnologia.
Gerenciar a infraestrutura e os recursos
Desenvolvedores e engenheiros de dados podem escolher entre as ferramentas a seguir para automatizar o provisionamento e o gerenciamento de infraestrutura e recursos. Essas ferramentas dão suporte a cenários de pipeline de CI/CD simples e complicados.
Para obter recomendações de uso de ferramentas, consulte Qual ferramenta de desenvolvedor devo usar?.
| Recurso | Descrição |
|---|---|
| CLI do Databricks | Acesse a funcionalidade do Azure Databricks usando a CLI (interface de linha de comando) do Databricks. A CLI encapsula a API REST do Databricks, portanto, em vez de enviar chamadas diretamente à API REST usando curl ou Postman, você pode usar a CLI do Databricks para interagir com o Databricks. Use o CLI a partir de um terminal local ou utilize-o no terminal web do workspace . |
| Pacotes de Ativos do Databricks | Defina e gerencie recursos do Databricks e seu pipeline de CI/CD usando as práticas recomendadas de desenvolvimento, teste e implantação que são o padrão do setor para seus dados e projetos de IA com pacotes de ativos do Databricks, o que é um recurso da CLI do Databricks. |
| Provedor do Databricks Terraform e CDKTF do Terraform para Databricks | Provisione a infraestrutura e os recursos do Azure Databricks usando Terraform. |
| Ferramentas de CI/CD | Integre sistemas e estruturas populares de CI/CD, como GitHub Actions, Jenkins e Apache Airflow. |
Colaborar com e compartilhar códigos
Entre muitos outros recursos de colaboração no workspace, o Databricks dá suporte especificamente a usuários desenvolvedores que desejam colaborar com e compartilhar códigos no workspace com estes recursos:
| Recurso | Descrição |
|---|---|
| UDFs | Desenvolva UDFs (funções definidas pelo usuário) para reutilizar e compartilhar códigos. |
| Pastas Git | Configure pastas do Git para contribuições de controle de versão e de origem para seus arquivos de projeto do Databricks. |
Interagir com a comunidade de desenvolvedores do Databricks
O Databricks tem uma comunidade de desenvolvedores ativa, que é apoiada pelos seguintes programas e recursos:
- Os MVPs do Databricks: Este programa reconhece os membros da comunidade, cientistas de dados, engenheiros de dados, desenvolvedores e entusiastas de software livre que se destacam na comunidade de dados e inteligência artificial. Para mais informações, confira MVPs do Databricks.
- Treinamento: o Databricks fornece módulos de aprendizado para desenvolvedores do Apache Spark, engenheiros de IA generativa, engenheiros de dados e muito mais.
- Community: uma riqueza de conhecimento está disponível na comunidade Databricks e na comunidade Apache Spark.