Partilhar via


Modelos de base suportados no Mosaic AI Model Serving

Este artigo descreve os modelos de base que você pode servir usando o Mosaic AI Model Serving.

Os modelos de base são redes neurais grandes e previamente treinadas em amplos e diversificados conjuntos de dados. Esses modelos são projetados para aprender padrões gerais em linguagem, imagens ou outros tipos de dados e podem ser ajustados para tarefas específicas com treinamento adicional. O uso de determinados modelos de base está sujeito à licença do desenvolvedor do modelo e à política de uso aceitável. Consulte Licenças e termos aplicáveis para desenvolvedores de modelos.

O Model Serving oferece opções flexíveis para hospedar e consultar modelos básicos com base em suas necessidades:

  • Pay-per-token: Ideal para experimentação e exploração rápida. Esta opção permite que o/a utilizador/a consulte os endpoints pré-configurados no seu espaço de trabalho Databricks sem compromissos de infraestrutura iniciais.
  • Funções de IA (inferência em lote): Um subconjunto de modelos alojados em Databricks é otimizado para Funções de IA. Você pode aplicar IA aos seus dados e executar cargas de trabalho de produção de inferência em lote em escala usando essas funções e seus modelos suportados.
  • Largura de banda provisionada: Recomendada para casos de uso de produção que exigem garantias de desempenho. Esta opção permite a implantação de modelos fundamentais ajustados com endpoints de serviço otimizados.
  • Modelos externos: Esta opção permite o acesso a modelos de base hospedados fora do Databricks, como os fornecidos pela OpenAI ou Anthropic. Esses modelos podem ser gerenciados centralmente dentro do Databricks para uma governança simplificada.

Modelos de base hospedados no Databricks

O Databricks hospeda modelos de fundação aberta de última geração, como o Meta Llama. Esses modelos são disponibilizados usando APIs de modelo de fundação.

A tabela a seguir resume quais famílias de modelos e modelos hospedados pelo Databricks são suportados em cada região com base no recurso Serviço de Modelo.

Importante

  • Os Claude Opus 4.5 do Anthropic são alojados em endpoints globais e requerem que o encaminhamento entre geografias seja ativado para todas as regiões.

  • Anthropic Claude 3.7 Sonnet será retirado a 10 de março de 2026. Consulte Modelos descontinuados para obter o modelo de substituição recomendado e orientações sobre como migrar durante o processo de descontinuação.

  • O Meta Llama 4 Maverick está disponível para cargas de trabalho com taxa de transferência provisionada das APIs do modelo fundamental em Visualização Pública.

  • A partir de 11 de dezembro de 2024, o Meta-Llama-3.3-70B-Instruct substitui o suporte ao Meta-Llama-3.1-70B-Instruct nos endpoints "pay-per-token" das APIs do modelo Foundation.

  • O Meta-Llama-3.1-405B-Instruct é o maior modelo de linguagem grande de última geração disponível abertamente, criado e treinado pela Meta e distribuído pelo Azure Machine Learning usando o Catálogo de Modelos do AzureML.

    • A partir de 15 de fevereiro de 2026, o Meta-Llama-3.1-405B-Instruct será desativado para cargas de trabalho de pagamento por token.
    • A partir de 15 de maio de 2026, o Meta-Llama-3.1-405B-Instruct será desativado para cargas de trabalho de taxa de transferência provisionadas.
    • Consulte Modelos descontinuados para obter o modelo de substituição recomendado e orientações sobre como migrar durante o processo de descontinuação.
  • A partir de 15 de fevereiro de 2026, os modelos associados às seguintes famílias de modelos serão desativados e não estarão mais disponíveis para uso em qualquer uma das áreas de recursos de serviço de modelo. Consulte Modelos retirados para obter modelos de substituição recomendados e orientações sobre como migrar durante a descontinuação.

    • Lhama 3 70B
    • Lama 3 8B
    • Lama 2 70B
    • Lama 2 13B
    • Mistral 8x7B
    • Mixtral 8x7B |
  • A partir de 19 de dezembro de 2025, os modelos associados às seguintes famílias de modelos são retirados de serviço e deixam de estar disponíveis para utilização em nenhuma das áreas de funcionalidades Model Served. Consulte Modelos retirados para obter modelos de substituição recomendados e orientações sobre como migrar durante a descontinuação.

    • DBRX
    • MPT 30B |
    • MPT 7B [en]
Região APIs de Modelos Fundamentais com pagamento por token Funções de IA (inferência em lote) Capacidade de processamento provisionada das APIs do Modelo Fundamental
australiacentral Não suportado Não suportado Não suportado
australiacentral2 Não suportado Não suportado Não suportado
australiaeast Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick (pré-visualização)*
    • Meta Llama 3,3
    • Meta Llama 3,2 3B
    • Meta Llama 3,2 1B
    • Meta Lama 3,1
    • GTE v1.5 (Inglês)
    • BGE v1.5 (Inglês)
australiasoutheast Não suportado Não suportado Não suportado
brazilsouth Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick* (pré-visualização)
    • Meta Lama 3.3*
    • Meta Lama 3.2 3B*
    • Meta Llama 3,2 1B*
    • Meta Llama 3,1*
    • GTE v1.5 (Inglês)*
    • BGE v1.5 (Inglês)*
canadacentral Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick* (pré-visualização)
    • Meta Lama 3.3*
    • Meta Lama 3.2 3B*
    • Meta Llama 3,2 1B*
    • Meta Llama 3,1*
    • GTE v1.5 (Inglês)*
    • BGE v1.5 (Inglês)*
canadaeast Não suportado Não suportado Não suportado
centralindia Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick* (pré-visualização)
    • Meta Lama 3.3*
    • Meta Lama 3.2 3B*
    • Meta Llama 3,2 1B*
    • Meta Llama 3,1*
    • GTE v1.5 (Inglês)*
    • BGE v1.5 (Inglês)*
centralus Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Pesquisar Google por Gemma 3 12B
    • Meta Llama 4 Maverick (pré-visualização)
    • Meta Llama 3,3
    • Meta Llama 3,2 3B
    • Meta Llama 3,2 1B
    • Meta Lama 3,1
    • GTE v1.5 (Inglês)
    • BGE v1.5 (Inglês)
chinaeast2 Não suportado Não suportado Não suportado
chinaeast3 Não suportado Não suportado Não suportado
chinanorth2 Não suportado Não suportado Não suportado
chinanorth3 Não suportado Não suportado Não suportado
eastasia Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick* (pré-visualização)
    • Meta Lama 3.3*
    • Meta Lama 3.2 3B*
    • Meta Llama 3,2 1B*
    • Meta Llama 3,1*
    • GTE v1.5 (Inglês)*
    • BGE v1.5 (Inglês)*
eastus Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Pesquisar Google por Gemma 3 12B
    • Meta Llama 4 Maverick (pré-visualização)
    • Meta Llama 3,3
    • Meta Llama 3,2 3B
    • Meta Llama 3,2 1B
    • Meta Lama 3,1
    • GTE v1.5 (Inglês)
    • BGE v1.5 (Inglês)
eastus2 Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Pesquisar Google por Gemma 3 12B
    • Meta Llama 4 Maverick (pré-visualização)
    • Meta Llama 3,3
    • Meta Llama 3,2 3B
    • Meta Llama 3,2 1B
    • Meta Lama 3,1
    • GTE v1.5 (Inglês)
    • BGE v1.5 (Inglês)
francecentral Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Pesquisar Google por Gemma 3 12B
    • Meta Llama 4 Maverick (pré-visualização)
    • Meta Llama 3,3
    • Meta Llama 3,2 3B
    • Meta Llama 3,2 1B
    • Meta Lama 3,1
    • GTE v1.5 (Inglês)
    • BGE v1.5 (Inglês)
germanywestcentral Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Pesquisar Google por Gemma 3 12B
    • Meta Llama 4 Maverick (pré-visualização)
    • Meta Llama 3,3
    • Meta Llama 3,2 3B
    • Meta Llama 3,2 1B
    • Meta Lama 3,1
    • GTE v1.5 (Inglês)
    • BGE v1.5 (Inglês)
japaneast Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick* (pré-visualização)
    • Meta Lama 3.3*
    • Meta Lama 3.2 3B*
    • Meta Llama 3,2 1B*
    • Meta Llama 3,1*
    • GTE v1.5 (Inglês)*
    • BGE v1.5 (Inglês)*
japanwest Não suportado Não suportado Não suportado
koreacentral Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Lama 4 Maverick*
    • Meta Lama 3.3*
    • Meta Lama 3.2 3B*
    • Meta Llama 3,2 1B*
    • Meta Llama 3,1*
mexicocentral Não suportado Não suportado Não suportado
northcentralus Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Pesquisar Google por Gemma 3 12B
    • Meta Llama 4 Maverick (pré-visualização)
    • Meta Llama 3,3
    • Meta Llama 3,2 3B
    • Meta Llama 3,2 1B
    • Meta Lama 3,1
    • GTE v1.5 (Inglês)
    • BGE v1.5 (Inglês)
northeurope Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Pesquisar Google por Gemma 3 12B
    • Meta Llama 4 Maverick (pré-visualização)
    • Meta Llama 3,3
    • Meta Llama 3,2 3B
    • Meta Llama 3,2 1B
    • Meta Lama 3,1
    • GTE v1.5 (Inglês)
    • BGE v1.5 (Inglês)
norwayeast Não suportado Não suportado Não suportado
qatarcentral Não suportado Não suportado Não suportado
southafricanorth Não suportado Não suportado Não suportado
southcentralus Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Pesquisar Google por Gemma 3 12B
    • Meta Llama 4 Maverick (pré-visualização)
    • Meta Llama 3,3
    • Meta Llama 3,2 3B
    • Meta Llama 3,2 1B
    • Meta Lama 3,1
    • GTE v1.5 (Inglês)
    • BGE v1.5 (Inglês)
southeastasia Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick* (pré-visualização)
    • Meta Lama 3.3*
    • Meta Lama 3.2 3B*
    • Meta Llama 3,2 1B*
    • Meta Llama 3,1*
    • GTE v1.5 (Inglês)*
    • BGE v1.5 (Inglês)*
southindia Não suportado Não suportado Não suportado
swedencentral Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Pesquisar Google por Gemma 3 12B
    • Meta Llama 4 Maverick (pré-visualização)
    • Meta Llama 3,3
    • Meta Llama 3,2 3B
    • Meta Llama 3,2 1B
    • Meta Lama 3,1
    • GTE v1.5 (Inglês)
    • BGE v1.5 (Inglês)
switzerlandnorth Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Pesquisar Google por Gemma 3 12B
    • Meta Llama 4 Maverick (pré-visualização)
    • Meta Llama 3,3
    • Meta Llama 3,2 3B
    • Meta Llama 3,2 1B
    • Meta Lama 3,1
    • GTE v1.5 (Inglês)
    • BGE v1.5 (Inglês)
switzerlandwest Não suportado Não suportado Não suportado
uaenorth Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick* (pré-visualização)
    • Meta Lama 3.3*
    • Meta Lama 3.2 3B*
    • Meta Llama 3,2 1B*
    • Meta Llama 3,1*
    • GTE v1.5 (Inglês)*
    • BGE v1.5 (Inglês)*
uksouth Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B*
    • OpenAI GPT OSS 20B*
    • Google Gemma 3 12B*
    • Meta Llama 4 Maverick* (pré-visualização)
    • Meta Lama 3.3*
    • Meta Lama 3.2 3B*
    • Meta Llama 3,2 1B*
    • Meta Llama 3,1*
    • GTE v1.5 (Inglês)*
    • BGE v1.5 (Inglês)*
ukwest Não suportado Não suportado Não suportado
westcentralus Não suportado Não suportado Não suportado
westeurope Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Pesquisar Google por Gemma 3 12B
    • Meta Llama 4 Maverick (pré-visualização)
    • Meta Llama 3,3
    • Meta Llama 3,2 3B
    • Meta Llama 3,2 1B
    • Meta Lama 3,1
    • GTE v1.5 (Inglês)
    • BGE v1.5 (Inglês)
westindia Não suportado Não suportado Não suportado
westus Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Pesquisar Google por Gemma 3 12B
    • Meta Llama 4 Maverick (pré-visualização)
    • Meta Llama 3,3
    • Meta Llama 3,2 3B
    • Meta Llama 3,2 1B
    • Meta Lama 3,1
    • GTE v1.5 (Inglês)
    • BGE v1.5 (Inglês)
westus2 Os seguintes modelos são suportados:
Os seguintes modelos são suportados:
  • As seguintes famílias de modelos são suportadas para inferência em tempo real:
    • OpenAI GPT OSS 120B
    • OpenAI GPT OSS 20B
    • Pesquisar Google por Gemma 3 12B
    • Meta Llama 4 Maverick (pré-visualização)
    • Meta Llama 3,3
    • Meta Llama 3,2 3B
    • Meta Llama 3,2 1B
    • Meta Lama 3,1
    • GTE v1.5 (Inglês)
    • BGE v1.5 (Inglês)
westus3 Não suportado Não suportado Não suportado

* Este modelo é suportado com base na disponibilidade da GPU e requer roteamento entre geografias para ser ativado.

Modelos de base do Access hospedados fora do Databricks

Modelos fundamentais criados por fornecedores de LLM, como OpenAI e Anthropic, também são acessíveis no Databricks usando modelos externos . Esses modelos estão alojados fora do Databricks e pode-se criar um endpoint para os consultar. Esses endpoints podem ser geridos centralmente a partir do Azure Databricks, o que facilita o uso e a gestão de vários provedores de LLM na sua organização.

A tabela a seguir apresenta uma lista não exaustiva de modelos suportados e tipos de pontos finais correspondentes. Você pode usar as associações de modelo listadas para ajudá-lo a configurar seu ponto de extremidade para qualquer tipo de modelo recém-lançado à medida que eles se tornam disponíveis com um determinado provedor. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

Observação

Com o rápido desenvolvimento dos LLMs, não há garantia de que esta lista esteja sempre atualizada. Novas versões de modelo do mesmo provedor geralmente são suportadas, mesmo que não estejam na lista.

Provedor de modelo llm/v1/Conclusões LLM/v1/Bate-papo llm/v1/Incorporações
OpenAI**
  • GPT-3.5-Turbo-Instrução
  • Babbage-002
  • Davinci-002
  • o1
  • o1-mini
  • o1-mini-2024-09-12
  • GPT-3.5-Turbo
  • GPT-4
  • GPT-4-Turbo
  • GPT-4-turbo-2024-04
  • GPT-4O
  • GPT-4O-2024-05-13
  • GPT-4O-Mini
  • incorporação de texto ada 002
  • incorporação de texto-3-grande
  • incorporação de texto-3-pequeno
Azure OpenAI**
  • texto-davinci-003
  • GPT-35-Turbo-Instruct
  • o1
  • o1-mini
  • GPT-35-Turbo
  • GPT-35-Turbo-16K
  • GPT-4
  • GPT-4-Turbo
  • GPT-4-32K
  • GPT-4O
  • GPT-4O-Mini
  • incorporação de texto ada 002
  • incorporação de texto-3-grande
  • incorporação de texto-3-pequeno
Antrópico
  • Claude-1
  • Claude-1.3-100K
  • Claude-2
  • Claude-2,1
  • Claude-2,0
  • claude-instante-1.2
  • claude-3-5-último soneto
  • claude-3-5-haiku-mais-recentes
  • claude 3.5 opus mais recente
  • claude-3-5-soneto-20241022
  • claude-3-5-haiku-20241022
  • claude-3-5-soneto-20240620
  • claude-3-haiku-20240307
  • claude-3-opus-20240229
  • claude-3-soneto-20240229
Cohere
  • comando
  • luz de comando
  • comando-r7b-12-2024
  • comando-r-plus-08-2024
  • comando-r-08-2024
  • comando-r-plus
  • comando-r
  • comando
  • comando-luz-noturna
  • luz de comando
  • comando-nightly
  • embed-inglês-v2.0
  • incorporar-multilíngue-v2.0
  • incorporar-inglês-light-v2.0
  • embed-inglês-v3.0
  • embed-inglês-luz-v3.0
  • incorporar-multilinguístico-v3.0
  • incorporar-multilingue-luz-v3.0
Serviço de Modelos de IA Mosaic Endpoint de serviço do Databricks Endpoint de serviço do Databricks Endpoint de serviço do Databricks
Substrato rochoso amazônico Antrópico:
  • claude-instante-v1
  • Claude-V2

Cohere
  • comando-texto-v14
  • comando-luz-texto-v14

Laboratórios AI21:
  • j2-grande-instruir
  • j2-jumbo-instruir
  • j2-médio
  • j2-médio-v1
  • J2-ULTRA
  • J2-ULTRA-V1
Antrópico:
  • claude-3-5-soneto-20241022-v2:0
  • claude-3-5-haiku-20241022-v1:0
  • claude-3-opus-20240229-v1:0
  • claude-3-soneto-20240229-v1:0
  • claude-3-5-soneto-20240620-v1:0

Cohere
  • comando-r-plus-v1:0
  • comando-r-v1:0

Amazônia:
  • nova-lite-v1:0
  • nova-micro-v1:0
  • nova-pro-v1:0
Amazônia:
  • titan-incorporar-texto-v2:0
  • titan-inserir-texto-v1
  • titan-embed-g1-texto-02

Cohere
  • embed-English-v3
  • incorporar-multilíngue-v3
Laboratórios AI21
  • j2-médio
  • j2-luz
  • J2-ULTRA
Google Cloud Vertex AI texto-bison
  • Chat-Bison
  • Gemini Pro
  • gemini-1.0-Pro
  • gemini-1.5-Pro
  • Gemini-1.5-Flash
  • gemini-2.0-Flash
  • incorporação de texto-004
  • incorporação de texto-005
  • textembedding-lagartixa

** O provedor de modelos suporta modelos de conclusão e de chat ajustados. Para consultar um modelo ajustado, preencha o campo name da configuração external model com o nome do modelo ajustado.

O provedor de modelos suporta modelos de conclusão personalizados.

Criar modelo de base servindo endpoints

Para consultar e usar modelos fundamentais nas suas aplicações de IA, deve primeiro criar um endpoint de serviço do modelo. O Model Serving utiliza uma API e uma interface unificadas para criar e atualizar endpoints de modelos fundamentais.

Modelo fundamental de consulta para atendimento de pontos de extremidade

Depois de criar o seu endpoint de serviço, poderá consultar o seu modelo base. O Model Serving usa uma API e SDK unificadas compatíveis com OpenAI para consultar modelos básicos. Essa experiência unificada simplifica como você experimenta e personaliza modelos básicos para produção em nuvens e provedores suportados.

Veja Usar modelos fundamentais.