Compartilhar via


Modelos de base hospedados pelo Databricks disponíveis nas APIs do Foundation Model

Este artigo descreve os modelos abertos de última geração com suporte das APIs de Modelo do Databricks Foundation.

Observação

Consulte os modelos de base com suporte no Mosaic AI Model Serving para obter a disponibilidade de região desses modelos e as áreas de recursos com suporte.

Você pode enviar solicitações de consulta para esses modelos usando os endpoints de pagamento por token disponíveis no seu ambiente de trabalho no Databricks. Confira Usar modelos de base e tabela de modelos com suporte para pagamento por token para obter os nomes dos pontos de extremidade dos modelos a serem usados.

Além de modelos compatíveis com o modo de pagamento por token, as APIs do Modelo de Base também oferecem o modo de taxa de transferência provisionada. O Databricks recomenda a taxa de transferência provisionada para as cargas de trabalho de produção. Esse modo dá suporte a todos os modelos de uma família de arquitetura de modelo, incluindo os modelos ajustados e personalizados pré-treinados com suporte no modo pagamento por token. Confira APIs do Modelo de Base com taxa de transferência provisionada para obter uma lista de arquiteturas com suporte.

Você pode interagir com esses modelos com suporte usando o Playground de IA.

Instrução do Alibaba Cloud Qwen3-Next 80B A3B

Importante

O modelo de instrução Qwen3-Next 80B A3B está em Beta e só está disponível na eastus2 região.

  • Consulte Gerenciar visualizações do Azure Databricks para obter diretrizes sobre como habilitar esse modelo.
  • Qwen3-Next 80B A3B Instruct é fornecido e está sujeito à Licença Apache 2.0, Direitos autorais (c) A Apache Software Foundation, todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

Nome do ponto de extremidade: databricks-qwen3-next-80b-a3b-instruct

Qwen3-Next-80B-A3B-Instruct é um modelo de linguagem grande altamente eficiente otimizado para tarefas de seguimento de instruções criado e treinado pela Alibaba Cloud. Esse modelo foi projetado para lidar com contextos extremamente longos e destaca-se em fluxos de trabalho de várias etapas, geração com recuperação aumentada e aplicações empresariais que exigem saídas determinísticas em alto desempenho.

Assim como acontece com outros modelos de linguagem grandes, o resultado de instrução do Qwen3-Next 80B A3B pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada de recuperação) em cenários em que a precisão é especialmente importante.

OpenAI GPT OSS 120B

Importante

O OpenAI GPT OSS 120B é fornecido e está sujeito à Licença do Apache 2.0, direitos autorais (c) O Apache Software Foundation, todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

Nome do ponto de extremidade: databricks-gpt-oss-120b

GPT OSS 120B é um modelo de raciocínio de última geração com níveis de esforço de raciocínio encadeado e ajustável criados e treinados pela OpenAI. É o principal modelo de peso aberto da OpenAI e apresenta uma janela de contexto de token de 128K. O modelo é criado para tarefas de raciocínio de alta qualidade.

Assim como acontece com outros modelos de linguagem grandes, a saída gpt oss 120B pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada de recuperação) em cenários em que a precisão é especialmente importante.

OpenAI GPT OSS 20B

Importante

O OpenAI GPT OSS 20B é fornecido e está sujeito à Licença do Apache 2.0, direitos autorais (c) O Apache Software Foundation, todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

Nome do ponto de extremidade: databricks-gpt-oss-20b

GPT OSS 20B é um modelo de raciocínio leve de última geração criado e treinado pela OpenAI. Esse modelo tem uma janela de contexto de token de 128K e se destaca em copilots em tempo real e tarefas de inferência em lote.

Assim como acontece com outros modelos de linguagem grandes, a saída gpt oss 20B pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada de recuperação) em cenários em que a precisão é especialmente importante.

Google Gemma 3 12B

Importante

Consulte Licenças e termos do desenvolvedor de modelo aplicável para a Licença da Comunidade Gemma 3 e a Política de Uso Aceitável.

Nome do ponto de extremidade: databricks-gemma-3-12b

Gemma 3 12B é um modelo de linguagem multimodal e visual de 12 bilhões de parâmetros desenvolvido pelo Google como parte da família Gemma 3. Gemma 3 tem até um contexto de token de 128K e fornece suporte multilíngue para mais de 140 idiomas. Esse modelo foi projetado para lidar com entradas de texto e imagem e gerar saídas de texto e é otimizado para casos de uso de diálogo, geração de texto e tarefas de compreensão de imagem, incluindo resposta a perguntas.

Assim como acontece com outros grandes modelos de linguagem, a saída de Gemma 3 pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada de recuperação) em cenários em que a precisão é especialmente importante.

"Meta Llama 4 Maverick"

Importante

Confira Licenças e termos do desenvolvedor de modelo aplicável para a licença do LLAMA 4 Community e a política de uso aceitável.

Nome do ponto de extremidade: databricks-llama-4-maverick

Llama 4 Maverick é um modelo de linguagem grande de última geração criado e treinado pelo Meta. É o primeiro da família de modelos Llama a usar uma arquitetura de mistura de especialistas para eficiência computacional. O Llama 4 Maverick dá suporte a vários idiomas e é otimizado para casos precisos de uso de imagens e de compreensão de texto. Atualmente, o suporte do Databricks ao Llama 4 Maverick está limitado a casos de uso de compreensão de texto. Saiba mais sobre Llama 4 Maverick.

Assim como acontece com outros modelos de linguagem grandes, a saída do Llama 4 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada de recuperação) em cenários em que a precisão é especialmente importante.

Instrução meta llama 3.3 70B

Importante

Desde 11 de dezembro de 2024, o Meta-Llama-3.3-70B-Instruct substitui o suporte para Meta-Llama-3.1-70B-Instruct nos pontos de extremidade de pagamento por token das APIs do modelo de base.

Confira Licenças e termos do desenvolvedor de modelo aplicável para o LLama 3.3 Community e a política de uso aceitável.

Nome do ponto de extremidade: databricks-meta-llama-3-3-70b-instruct

Meta-Llama-3.3-70B-Instruct é um modelo de linguagem grande de última geração com um contexto de 128.000 tokens que foi criado e treinado pelo Meta. O modelo dá suporte a vários idiomas e é otimizado para casos de uso de diálogo. Saiba mais sobre o Meta Llama 3.3.

Semelhante a outros modelos de linguagem grandes, a saída do Llama-3 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada de recuperação) em cenários em que a precisão é especialmente importante.

Instrução meta llama 3.1 405B

Importante

Meta-Llama-3.1-405B-Instruct será desativado,

  • A partir de 15 de fevereiro de 2026 para cargas de trabalho pagas por token.
  • A partir de 15 de maio de 2026 para cargas de trabalho com taxa de transferência provisionada.

Consulte modelos desativados para obter o modelo de substituição recomendado e orientações sobre como migrar durante a depreciação.

Importante

O uso desse modelo com APIs do Modelo de Fundação está em Visualização Pública. Entre em contato com sua equipe de conta do Databricks se você encontrar falhas de ponto de extremidade ou erros de estabilização ao usar esse modelo.

Confira Licenças e termos do desenvolvedor de modelo aplicável para a licença do LLama 3.1 Community e a política de uso aceitável.

Nome do ponto de extremidade: databricks-meta-llama-3-1-405b-instruct

O Meta-Llama-3.1-405B-Instruct é o maior modelo de linguagem grande abertamente disponível, criado e treinado pelo Meta, e é distribuído pelo Azure Machine Learning usando o Catálogo de Modelos do AzureML. O uso desse modelo permite que os clientes desbloqueiem novos recursos, como raciocínio avançado de várias etapas e geração de dados sintéticos de alta qualidade. Este modelo é competitivo com GPT-4-Turbo em termos de qualidade.

Assim como Meta-Llama-3.1-70B-Instruct, esse modelo tem um contexto de 128.000 tokens e suporte em dez idiomas. Ele se alinha às preferências humanas por ajuda e segurança e é otimizado para casos de uso de diálogo. Saiba mais sobre os modelos do Meta Llama 3.1.

Semelhante a outros modelos de linguagem grandes, a saída do Llama-3.1 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada de recuperação) em cenários em que a precisão é especialmente importante.

Instrução meta llama 3.1 8B

Importante

Confira Licenças e termos do desenvolvedor de modelo aplicável para a licença do LLama 3.1 Community e a política de uso aceitável.

Nome do ponto de extremidade: databricks-meta-llama-3-1-8b-instruct

Meta-Llama-3.1-8B-Instruct é um modelo de linguagem grande de última geração com um contexto de 128.000 tokens que foi criado e treinado pelo Meta. O modelo dá suporte a vários idiomas e é otimizado para casos de uso de diálogo. Saiba mais sobre o Meta Llama 3.1.

Semelhante a outros modelos de linguagem grandes, a saída do Llama-3 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada de recuperação) em cenários em que a precisão é especialmente importante.

Anthropic Claude Haiku 4.5

Importante

Os clientes são responsáveis por garantir sua conformidade com os termos da Política de Uso Aceitável da Antropic. Consulte também o Contrato de Serviços de Nuvem Mestres do Databricks.

Nome do ponto de extremidade: databricks-claude-haiku-4-5

Claude Haiku 4.5 é o modelo mais rápido e econômico da Antropic, fornecendo qualidade de codificação quase fronteiriça com velocidade e eficiência excepcionais. Ele se destaca em aplicativos de baixa latência em tempo real, incluindo assistentes de chat, agentes de atendimento ao cliente, programação de pares e criação rápida de protótipos. Esse modelo é ideal para implantações de produção voltadas para o custo e sistemas agentuais que exigem assistência de IA responsiva.

Assim como acontece com outros modelos de linguagem grandes, a saída de Claude Haiku 4.5 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada de recuperação) em cenários em que a precisão é especialmente importante.

Este endpoint é hospedado pelo Databricks dentro do perímetro de segurança.

Antrópico Claude Sonnet 4.5

Importante

Os clientes são responsáveis por garantir sua conformidade com os termos da Política de Uso Aceitável da Antropic. Consulte também o Contrato de Serviços de Nuvem Mestres do Databricks.

Nome do ponto de extremidade: databricks-claude-sonnet-4-5

Claude Sonnet 4.5 é o modelo de raciocínio híbrido mais avançado da Anthropic. Ele oferece dois modos: respostas quase instantâneas e pensamento estendido para um raciocínio mais profundo com base na complexidade da tarefa. Claude Sonnet 4.5 é especializado em aplicativos que exigem um equilíbrio de taxa de transferência prática e pensamento avançado, como agentes voltados para o cliente, fluxos de trabalho de codificação de produção e geração de conteúdo em escala.

Assim como acontece com outros modelos de linguagem grandes, a saída de Claude Sonnet 4.5 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada de recuperação) em cenários em que a precisão é especialmente importante.

Este endpoint é hospedado pelo Databricks na AWS dentro do perímetro de segurança do Databricks.

Anthropic Claude Opus 4.5

Importante

Os clientes são responsáveis por garantir sua conformidade com os termos da Política de Uso Aceitável da Antropic. Consulte também o Contrato de Serviços de Nuvem Mestres do Databricks.

Esse modelo é hospedado em um ponto de extremidade global e requer que o roteamento entre geografias seja habilitado.

Nome do ponto de extremidade: databricks-claude-opus-4-5

Claude Opus 4.5 é o modelo de raciocínio híbrido mais capaz da Anthropic, criado para as tarefas mais complexas que exigem análise profunda e pensamento estendido. Esse modelo combina capacidades poderosas de uso geral com raciocínio avançado, destacando-se na geração de código, pesquisa, criação de conteúdo e em fluxos de trabalho sofisticados de múltiplas etapas com agentes. O Claude Opus 4.5 dá suporte a entradas de texto e visão com uma janela de contexto de 200.000 tokens, tornando-o ideal para aplicativos empresariais que exigem uma compreensão ampla e profunda.

Assim como acontece com outros modelos de linguagem grandes, a saída de Claude Opus 4.5 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada de recuperação) em cenários em que a precisão é especialmente importante.

Este endpoint é hospedado pelo Databricks na AWS dentro do perímetro de segurança do Databricks.

Antropo Claude Sonnet 4

Importante

Os clientes são responsáveis por garantir sua conformidade com os termos da Política de Uso Aceitável da Antropic. Consulte também o Contrato de Serviços de Nuvem Mestres do Databricks.

Nome do ponto de extremidade: databricks-claude-sonnet-4

Claude Sonnet 4 é um modelo de raciocínio híbrido de última geração criado e treinado pela Antropic. Esse modelo oferece dois modos: respostas quase instantâneas e pensamento estendido para um raciocínio mais profundo com base na complexidade da tarefa. O Claude Sonnet 4 é otimizado para várias tarefas, como desenvolvimento de código, análise de conteúdo em larga escala e desenvolvimento de aplicativos de agente.

Assim como acontece com outros modelos de linguagem grandes, a saída de Claude Sonnet 4 pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada de recuperação) em cenários em que a precisão é especialmente importante.

Este endpoint é hospedado pelo Databricks na AWS dentro do perímetro de segurança do Databricks.

Anthropic Claude Opus 4.1

Importante

Os clientes são responsáveis por garantir sua conformidade com os termos da Política de Uso Aceitável da Antropic. Consulte também o Contrato de Serviços de Nuvem Mestres do Databricks.

Nome do ponto de extremidade: databricks-claude-opus-4-1

Claude Opus 4.1 é um modelo de raciocínio híbrido de última geração criado e treinado pela Antropic. Esse modelo de linguagem de uso geral grande foi projetado para raciocínio complexo e aplicativos do mundo real em escala empresarial. Ele oferece suporte à entrada de texto e imagem, com uma janela de contexto de 200K tokens e capacidade de saída de 32K tokens. Esse modelo se destaca em tarefas como geração de código, criação de conteúdo e pesquisa e fluxos de trabalho de agentes de várias etapas sem intervenção humana constante.

Assim como acontece com outros modelos de linguagem grandes, a saída de Claude Opus 4.1 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada de recuperação) em cenários em que a precisão é especialmente importante.

Este endpoint é hospedado pelo Databricks na AWS dentro do perímetro de segurança do Databricks.

Antropo Claude 3.7 Sonnet

Importante

Nome do ponto de extremidade: databricks-claude-3-7-sonnet

Claude 3.7 Sonnet é um modelo de raciocínio híbrido de última geração criado e treinado pela Antropic. É um modelo de linguagem grande e um modelo de raciocínio que é capaz de responder rapidamente ou estender seu raciocínio com base na complexidade da tarefa. Quando no modo de pensamento estendido, as etapas de raciocínio do Claude 3.7 Sonnet ficam visíveis para o usuário. O Sonnet Claude 3.7 é otimizado para uma variedade de tarefas, como geração de código, raciocínio matemático e execução de instruções.

Assim como acontece com outros modelos de linguagem grandes, a saída de Claude 3.7 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada de recuperação) em cenários em que a precisão é especialmente importante.

Este endpoint é hospedado pelo Databricks na AWS dentro do perímetro de segurança do Databricks.

GTE Grande (En)

Importante

O GTE Large (En) é fornecido e está sujeito à Licença do Apache 2.0, Copyright © The Apache Software Foundation, Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

Nome do ponto de extremidade: databricks-gte-large-en

GTE (General Text Embedding) é um modelo de incorporação de texto que pode mapear qualquer texto para um vetor de incorporação de 1024 dimensões e uma janela de incorporação de 8192 tokens. Esses vetores podem ser usados em índices vetoriais para LLMs e para tarefas como recuperação, classificação, resposta a perguntas, clustering ou pesquisa semântica. Esse ponto de extremidade atende à versão em inglês do modelo e não gera inserções normalizadas.

Os modelos de incorporação são especialmente eficazes quando usados em conjunto com LLMs para casos de uso de geração aumentada de recuperação (RAG). O GTE pode ser usado para localizar trechos de texto relevantes em grandes partes de documentos que podem ser usados no contexto de uma LLM.

BGE Grande (En)

Nome do ponto de extremidade: databricks-bge-large-en

O BGE (Inserção Geral da BAAI) é um modelo de inserção de texto que pode mapear qualquer texto para um vetor de inserção de 1024 dimensões e uma janela de inserção de 512 tokens. Esses vetores podem ser usados em índices vetoriais para LLMs e para tarefas como recuperação, classificação, resposta a perguntas, clustering ou pesquisa semântica. Esse ponto de extremidade atende à versão em inglês do modelo e gera inserções normalizadas.

Os modelos de incorporação são especialmente eficazes quando usados em conjunto com LLMs para casos de uso de geração aumentada de recuperação (RAG). O BGE pode ser usado para localizar trechos de texto relevantes em grandes partes de documentos que podem ser usados no contexto de uma LLM.

Em aplicativos RAG, você pode melhorar o desempenho do sistema de recuperação incluindo um parâmetro de instrução. Os autores do BGE recomendam tentar a instrução "Represent this sentence for searching relevant passages:" para inserções de consulta, embora seu impacto no desempenho dependa do domínio.

Recursos adicionais