Partilhar via


Componentes do Azure Databricks

Este artigo apresenta os componentes fundamentais que você precisa entender para usar o Azure Databricks de forma eficaz.

Contas e espaços de trabalho

No Azure Databricks, um espaço de trabalho é uma implantação do Azure Databricks na nuvem que funciona como um ambiente para sua equipe acessar ativos do Databricks. Sua organização pode optar por ter vários espaços de trabalho ou apenas um, dependendo de suas necessidades.

Uma conta do Azure Databricks representa uma única entidade que pode incluir vários espaços de trabalho. As contas habilitadas para o Catálogo Unity podem ser usadas para gerir utilizadores e o seu acesso aos dados de forma centralizada em todo o espaço de trabalho da conta.

Faturação: unidades Databricks (DBUs)

O Azure Databricks fatura com base em unidades Databricks (DBUs), que são unidades de capacidade de processamento por hora com base no tipo de instância de VM.

Consulte a página de preços do Azure Databricks.

Autenticação e autorização

Esta seção descreve os conceitos que você precisa saber ao gerenciar identidades do Azure Databricks e seu acesso aos ativos do Azure Databricks.

Usuário

Um indivíduo único que tem acesso ao sistema. As identidades dos usuários são representadas por endereços de e-mail. Consulte Gerenciar usuários.

Principal de serviço

Uma identidade de serviço para uso com trabalhos, ferramentas automatizadas e sistemas, como scripts, aplicativos e plataformas de CI/CD. As entidades de serviço são representadas por uma ID de aplicação. Consulte Entidades de serviço.

Grupo

Uma coleção de identidades. Os grupos simplificam o gerenciamento de identidades, facilitando a atribuição de acesso a espaços de trabalho, dados e outros objetos protegíveis. Todas as identidades do Databricks podem ser atribuídas como membros de grupos. Consulte Grupos.

Lista de controle de acesso (ACL)

Uma lista de permissões anexadas ao espaço de trabalho, cluster, trabalho, tabela ou experimento. Uma ACL especifica quais usuários ou processos do sistema recebem acesso aos objetos, bem como quais operações são permitidas nos ativos. Cada entrada em uma ACL típica especifica um assunto e uma operação. Consulte Listas de controle de acesso.

Token de acesso pessoal (PAT)

Um token de acesso pessoal é uma cadeia de caracteres usada para autenticar chamadas de API REST, conexões de parceiros de tecnologia e outras ferramentas. Consulte Autentique-se com tokens de acesso pessoal do Azure Databricks (legado).

Os tokens de ID do Microsoft Entra também podem ser usados para autenticar na API REST.

Interfaces do Azure Databricks

Esta seção descreve as interfaces para acessar seus ativos no Azure Databricks.

IU

A interface do usuário do Azure Databricks é uma interface gráfica para interagir com recursos, como pastas de espaço de trabalho e seus objetos contidos, objetos de dados e recursos computacionais.

API REST

A REST API do Databricks fornece endpoints para modificar ou solicitar informações sobre Azure Databricks, incluindo contas e objetos de espaço de trabalho. Consulte a referência da conta e a referência do espaço de trabalho.

SQL REST API

A API REST SQL permite automatizar tarefas em objetos SQL. Consulte API SQL.

CLI

A CLI do Databricks está hospedada no GitHub. A CLI é construída sobre a API REST do Databricks.

Gestão de dados

Esta seção descreve as ferramentas e os objetos lógicos usados para organizar e governar dados no Azure Databricks. Consulte Objetos de banco de dados no Azure Databricks.

Catálogo Unity

O Unity Catalog é uma solução de governança unificada para ativos de dados e IA no Azure Databricks que fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados em espaços de trabalho do Databricks. Consulte O que é o Unity Catalog?.

Catálogo

Os catálogos são o contêiner de nível mais alto para organizar e isolar dados no Azure Databricks. Você pode compartilhar catálogos entre espaços de trabalho dentro da mesma região e conta. Consulte O que são catálogos no Azure Databricks?.

Esquema

Os esquemas, também conhecidos como bancos de dados, estão contidos em catálogos e fornecem um nível mais granular de organização. Eles contêm objetos de banco de dados e ativos de IA, como volumes, tabelas, funções e modelos. Consulte O que são esquemas no Azure Databricks?.

Tabela

As tabelas organizam e controlam o acesso a dados estruturados. Você consulta tabelas com Apache Spark SQL e Apache Spark APIs. Consulte Tabelas do Azure Databricks.

Visualizar

Uma vista é um objeto somente leitura derivado de uma ou mais tabelas e vistas. As visualizações guardam consultas definidas em tabelas. Consulte O que é uma vista?.

Volume

Os volumes representam um volume lógico de armazenamento em um local de armazenamento de objetos em nuvem e organizam e controlam o acesso a dados não tabulares. O Databricks recomenda o uso de volumes para gerenciar todo o acesso a dados não tabulares no armazenamento de objetos na nuvem. Consulte O que são volumes do Catálogo Unity?.

Tabelas delta

Por padrão, todas as tabelas criadas no Azure Databricks são tabelas Delta. As tabelas Delta são baseadas no projeto de código aberto Delta Lake, uma estrutura para armazenamento de tabelas ACID de alto desempenho em armazenamentos de objetos na nuvem. Uma tabela Delta armazena dados como um diretório de ficheiros no armazenamento de objetos em nuvem e regista metadados da tabela no metastore dentro de um catálogo e esquema.

Metaloja

O Unity Catalog fornece um metastore no nível da conta que registra metadados sobre dados, IA e permissões sobre catálogos, esquemas e tabelas. Consulte Metastore.

O Azure Databricks fornece um metastore herdado do Hive para clientes que não adotaram o Unity Catalog. Consulte Controle de acesso à tabela do Hive metastore (legado).

Explorador de Catálogos

O Catalog Explorer permite explorar e gerenciar dados e ativos de IA, incluindo esquemas (bancos de dados), tabelas, modelos, volumes (dados não tabulares), funções e modelos de ML registrados. Você pode usá-lo para localizar objetos de dados e proprietários, entender as relações de dados entre tabelas e gerenciar permissões e compartilhamento. Consulte O que é o Catalog Explorer?.

Raiz do DBFS

Importante

Armazenar e aceder a dados utilizando o diretório raiz do DBFS ou montagens de DBFS é um padrão obsoleto e não recomendado pelo Databricks. Em vez disso, o Databricks recomenda o uso do Unity Catalog para gerenciar o acesso a todos os dados. Consulte O que é o Unity Catalog?.

A raiz DBFS é um local de armazenamento disponível para todos os usuários por padrão. Consulte O que é DBFS?.

Gestão computacional

Esta seção descreve os conceitos que você precisa saber para executar cálculos no Azure Databricks.

Agrupamento

Um conjunto de recursos e configurações de computação nos quais você executa blocos de anotações e trabalhos. Existem dois tipos de clusters: geral e de trabalho. Consulte Compute.

  • Você cria um cluster multiuso usando a interface do usuário, CLI ou API REST. Pode terminar um cluster multiuso manualmente e reiniciá-lo. Esses clusters podem ser partilhados por vários utilizadores para a realização de análises interativas.
  • O agendador de tarefas do Azure Databricks cria um cluster de trabalho quando você executa um trabalho em um novo cluster de trabalho e encerra o cluster quando o trabalho é concluído. Não é possível reiniciar um cluster de trabalhos.

Piscina

Um conjunto de instâncias ociosas e prontas para uso que reduzem os tempos de inicialização e dimensionamento automático do cluster. Quando anexado a um pool, um cluster aloca os seus nós de controlador e de trabalho a partir do pool. Consulte Referência de configuração do pool.

Se o pool não tiver recursos ociosos suficientes para acomodar a solicitação do cluster, o pool expande-se alocando novas instâncias do fornecedor de instâncias. Quando um cluster anexado é encerrado, as instâncias usadas são retornadas ao pool e podem ser reutilizadas por um cluster diferente.

Tempo de execução do Databricks

O conjunto de componentes principais que são executados nos clusters gerenciados pelo Azure Databricks. Consulte Compute. O Azure Databricks tem os seguintes tempos de execução:

  • O Databricks Runtime inclui o Apache Spark, mas também adiciona uma série de componentes e atualizações que melhoram substancialmente a usabilidade, o desempenho e a segurança da análise de big data.
  • O Databricks Runtime for Machine Learning é baseado no Databricks Runtime e fornece infraestrutura de aprendizado de máquina pré-criada que é integrada com todos os recursos do espaço de trabalho do Azure Databricks. Ele contém várias bibliotecas populares, incluindo TensorFlow, Keras, PyTorch e XGBoost.

Tarefas e Pipelines UI

A interface do usuário do espaço de trabalho Jobs & Pipelines fornece entrada para as interfaces do usuário Jobs, Lakeflow Spark Declarative Pipelines e Lakeflow Connect, que são ferramentas que permitem orquestrar e agendar fluxos de trabalho.

Tarefas

Um mecanismo não interativo para orquestrar e agendar blocos de anotações, bibliotecas e outras tarefas. Veja as vagas de Lakeflow

Canalizações

Os pipelines declarativos do Lakeflow Spark fornecem uma estrutura declarativa para a construção de pipelines de processamento de dados confiáveis, manuteníveis e testáveis. Veja Lakeflow Spark Declarative Pipelines.

Carga de trabalho

Carga de trabalho é a quantidade de capacidade de processamento necessária para executar uma tarefa ou grupo de tarefas. O Azure Databricks identifica dois tipos de cargas de trabalho: engenharia de dados (trabalho) e análise de dados (multiuso).

  • Engenharia de dados Uma carga de trabalho (automatizada) é executada em um cluster de tarefas que o agendador de tarefas do Azure Databricks cria para cada carga de trabalho.
  • Análise de dados Uma carga de trabalho (interativa) é executada em um cluster multiuso. As tarefas de trabalho interativas normalmente executam comandos num notebook do Azure Databricks. No entanto, a execução de um trabalho em um cluster multiuso existente também é tratada como uma carga de trabalho interativa.

Contexto de execução

O estado de um ambiente REPL (Read-Eval-Print Loop) para cada linguagem de programação suportada. As linguagens suportadas são Python, R, Scala e SQL.

Engenharia de dados

As ferramentas de engenharia de dados ajudam na colaboração entre cientistas de dados, engenheiros de dados, analistas de dados e engenheiros de aprendizado de máquina.

Área de trabalho

Um espaço de trabalho é um ambiente para acessar todos os seus ativos do Azure Databricks. Um espaço de trabalho organiza objetos (blocos de anotações, bibliotecas, painéis e experimentos) em pastas e fornece acesso a objetos de dados e recursos computacionais.

Bloco de Notas

Uma interface baseada na Web para criar fluxos de trabalho de ciência de dados e aprendizado de máquina que podem conter comandos, visualizações e texto narrativo executáveis. Consulte Notebooks Databricks.

Biblioteca

Um pacote de código disponível para o bloco de anotações ou trabalho em execução no cluster. Os tempos de execução do Databricks incluem muitas bibliotecas e você também pode carregar as suas próprias. Consulte Instalar bibliotecas.

Pasta Git (anteriormente conhecida como Repos)

Uma pasta cujo conteúdo é co-versionado sincronizando-os com um repositório Git remoto. As pastas Databricks Git integram-se ao Git para fornecer controle de origem e versão para seus projetos.

IA e aprendizagem automática

O Databricks fornece um ambiente integrado de ponta a ponta com serviços gerenciados para desenvolver e implantar aplicativos de IA e aprendizado de máquina.

Mosaico AI

A marca de produtos e serviços da Databricks Mosaic AI Research, uma equipe de pesquisadores e engenheiros responsáveis pelos maiores avanços da Databricks em IA generativa. Os produtos Mosaic AI incluem os recursos de ML e IA no Databricks. Ver Mosaic Research.

Tempo de execução do aprendizado de máquina

Para ajudá-lo a desenvolver modelos de ML e IA, o Databricks fornece um Databricks Runtime for Machine Learning, que automatiza a criação de computação com infraestrutura pré-construída de aprendizado de máquina e aprendizado profundo, incluindo as bibliotecas de ML e DL mais comuns. Ele também tem suporte de GPU embutido e pré-configurado, incluindo drivers e bibliotecas de suporte. Consulte as informações sobre as versões mais recentes do Databricks Runtime e sua compatibilidade nas notas de versão do Databricks Runtime.

Experimentação

Uma coleção de MLflow é executada para treinar um modelo de aprendizado de máquina. Consulte Organizar execuções de treinamento com experimentos MLflow.

Funcionalidades

As características são um componente importante dos modelos de aprendizagem automática. Um repositório de recursos permite o compartilhamento e a descoberta de recursos em toda a organização e também garante que o mesmo código de computação de recursos seja usado para treinamento e inferência de modelos. Consulte Databricks Feature Store.

Modelos de IA generativa

O Databricks suporta a exploração, desenvolvimento e implantação de modelos generativos de IA, incluindo:

Registo de modelo

O Databricks fornece uma versão hospedada do MLflow Model Registry no Unity Catalog. Os modelos registados no Unity Catalog herdam controlo de acesso centralizado, linhagem, além de capacidades de descoberta e de acesso entre diferentes espaços de trabalho. Consulte Gerenciar o ciclo de vida do modelo no Catálogo Unity.

Serviço de Modelo

O Mosaic AI Model Serving fornece uma interface unificada para implantar, governar e consultar modelos de IA. Cada modelo que você atende está disponível como uma API REST que você pode integrar em seu aplicativo Web ou cliente. Com o Mosaic AI Model Serving, você pode implantar seus próprios modelos, modelos de base ou modelos de terceiros hospedados fora do Databricks. Consulte Implantar modelos usando o Mosaic AI Model Serving.

Armazenamento de dados

Data warehousing refere-se à coleta e armazenamento de dados de várias fontes para que possam ser acessados rapidamente para insights e relatórios de negócios. O Databricks SQL é uma coleção de serviços que oferece capacidades e desempenho de armazenamento de dados aos seus lagos de dados existentes. Consulte Arquitetura de armazenamento de dados.

Consulta

Uma consulta é uma instrução SQL válida que permite que você interaja com seus dados. Você pode criar consultas usando o editor SQL na plataforma ou conectar-se usando um conector, driver ou API SQL. Consulte Acessar e gerenciar consultas salvas para saber mais sobre como trabalhar com consultas.

Armazém SQL

Um recurso de computação no qual você executa consultas SQL. Existem três tipos de armazéns SQL: Classic, Pro e Serverless. O Azure Databricks recomenda o uso de armazéns sem servidor quando disponíveis. Consulte Tipos de armazém SQL para comparar os recursos disponíveis para cada tipo de depósito.

Histórico de consultas

Uma lista de consultas executadas e suas características de desempenho. O histórico de consultas permite monitorar o desempenho da consulta, ajudando a identificar gargalos e otimizar os tempos de execução da consulta. Consulte Histórico de consultas.

Visualização

Uma apresentação gráfica do resultado da execução de uma consulta. Consulte Visualizações em blocos de anotações Databricks e editor SQL.

Painel de Controlo

Uma apresentação de visualizações de dados e comentários. Você pode usar painéis para enviar relatórios automaticamente para qualquer pessoa em sua conta do Azure Databricks. Use o Assistente Databricks para ajudá-lo a criar visualizações com base em prompts de linguagem natural. Consulte Painéis. Você também pode criar um painel a partir de um bloco de anotações. Veja Painéis em notebooks.

Para painéis herdados, consulte Painéis herdados.

Importante

A Databricks recomenda o uso de painéis de IA/BI (anteriormente Lakeview dashboards). Versões anteriores de dashboards, anteriormente chamadas de dashboards SQL do Databricks, são agora denominadas dashboards de herança.

Cronograma de fim do suporte:

  • 12 de janeiro de 2026: Dashboards e APIs legados já não estão diretamente acessíveis. No entanto, ainda podes convertê-los em dashboards de IA/BI. A página de migração está disponível até 2 de março de 2026.

Converta painéis herdados usando a ferramenta de migração ou a API REST. Consulte Clonar um dashboard antigo para um dashboard de IA/BI para obter instruções sobre como usar a ferramenta de migração integrada. Veja Usar APIs Azure Databricks para gerir dashboards para tutoriais sobre como criar e gerir dashboards usando a API REST.