Partilhar via


Usar modelos de fundação

Neste artigo, ficará a saber quais opções estão disponíveis para escrever pedidos de consulta para modelos de base e como enviá-los para o endpoint de serviço do modelo. Você pode consultar modelos de base hospedados por Databricks e modelos de fundação hospedados fora de Databricks.

Para solicitações de consulta de modelos tradicionais de ML ou Python, consulte Pontos de extremidade de serviço de consulta para modelos personalizados.

O Mosaic AI Model Serving suporta APIs de modelos de base e modelos externos para acessar modelos de fundação. O Model Serving usa uma API e SDK unificadas compatíveis com OpenAI para consultá-los. Isso torna possível experimentar e personalizar modelos básicos para produção em nuvens e provedores suportados.

Opções de consulta

O Mosaic AI Model Serving fornece as seguintes opções para enviar solicitações de consulta para endpoints que fornecem modelos de base:

Método Detalhes
Cliente OpenAI Questione um modelo hospedado por um endpoint Mosaic AI Model Serving usando o cliente OpenAI. Especifique o nome do ponto de extremidade de serviço do modelo como a entrada model. Suportado para modelos de chat, incorporações e conclusão disponibilizados por APIs de Modelo de Base ou modelos externos.
Funções de IA Invoque a inferência do modelo diretamente do SQL usando a ai_query função SQL. Consulte Exemplo: Consultar um modelo de fundação.
Servindo a interface do usuário Selecione Consultar ponto de extremidade na página Ponto de extremidade de serviço . Insira os dados de entrada do modelo no formato JSON e clique em Enviar solicitação. Se o modelo tiver um exemplo de entrada registrado, use Mostrar exemplo para carregá-lo.
API REST Chame e consulte o modelo usando a API REST. Consulte POST /serving-endpoints/{name}/invocations para obter detalhes. Para marcar solicitações para pontos de extremidade que hospedam vários modelos, consulte Consultar modelos individuais associados a um ponto de extremidade.
SDK de desenvolvimentos MLflow Use a função predict() do MLflow Deployments SDK para consultar o modelo.
Databricks Python SDK O Databricks Python SDK é uma camada sobre a API REST. Ele lida com detalhes de baixo nível, como autenticação, facilitando a interação com os modelos.

Requerimentos

Importante

Como prática recomendada de segurança para cenários de produção, o Databricks recomenda que você use tokens OAuth máquina a máquina para autenticação durante a produção.

Para teste e desenvolvimento, o Databricks recomenda o uso de um token de acesso pessoal pertencente a entidades de serviço em vez de usuários do espaço de trabalho. Para criar tokens para entidades de serviço, consulte Gerenciar tokens para uma entidade de serviço.

Instalar pacotes

Depois de selecionar um método de consulta, você deve primeiro instalar o pacote apropriado no cluster.

Cliente OpenAI

Para usar o cliente OpenAI, o databricks-sdk[openai] pacote precisa ser instalado em seu cluster. O Databricks SDK fornece um wrapper para construir o cliente OpenAI com autorização configurada automaticamente para consultar modelos de IA generativos. Execute o seguinte no seu bloco de notas ou no seu terminal local:

!pip install databricks-sdk[openai]>=0.35.0

O seguinte só é necessário ao instalar o pacote em um Notebook Databricks

dbutils.library.restartPython()

API REST

O acesso à API REST de serviço está disponível no Databricks Runtime for Machine Learning.

SDK de desenvolvimentos MLflow

!pip install mlflow

O seguinte só é necessário ao instalar o pacote em um Notebook Databricks

dbutils.library.restartPython()

Databricks Python SDK

O SDK do Databricks para Python já está instalado em todos os clusters do Azure Databricks que usam o Databricks Runtime 13.3 LTS ou superior. Para clusters do Azure Databricks que usam o Databricks Runtime 12.2 LTS e inferior, você deve instalar o SDK do Databricks para Python primeiro. Consulte Databricks SDK for Python.

Tipos de modelos de fundação

A tabela a seguir resume os modelos de base suportados com base no tipo de tarefa.

Importante

Meta-Llama-3.1-405B-Instruct será aposentado,

  • A partir de 15 de fevereiro de 2026 para tarefas pagas por token.
  • A partir de 15 de maio de 2026 para cargas de trabalho de taxa de transferência provisionadas.

Consulte Modelos descontinuados para obter o modelo de substituição recomendado e orientações sobre como migrar durante o processo de descontinuação.

Tipo de tarefa Descrição Modelos suportados Quando usar? Casos de uso recomendados
Fins gerais Modelos concebidos para compreender e participar em conversas naturais de múltiplas interações. Eles são ajustados em grandes conjuntos de dados de diálogo humano, o que lhes permite gerar respostas contextualmente relevantes, rastrear o histórico de conversação e fornecer interações coerentes e semelhantes às humanas em vários tópicos. Os seguintes modelos de base hospedados pelo Databricks são suportados:

Os seguintes modelos externos são suportados:
  • Modelos das séries OpenAI GPT e O
  • Modelos antrópicos de Claude
  • Modelos do Google Gemini
Recomendado para cenários em que diálogo natural em várias etapas e compreensão contextual são necessários:
  • Assistentes virtuais
  • Bots de suporte ao cliente
  • Sistemas de tutoria interativos.
Incorporações Os modelos de incorporação são sistemas de aprendizado de máquina que transformam dados complexos, como texto, imagens ou áudio, em vetores numéricos compactos chamados incorporações. Esses vetores capturam as características e relações essenciais dentro dos dados, permitindo comparação, agrupamento e pesquisa semântica eficientes. Os seguintes modelos fundamentais são suportados e hospedados pelo Databricks:

Os seguintes modelos externos são suportados:
  • Modelos de incorporação de texto OpenAI
  • Modelos de representação de texto da Cohere
  • Modelos de incorporação de texto do Google
Recomendado para aplicações em que a compreensão semântica, a comparação de semelhanças e a recuperação ou agrupamento eficiente de dados complexos são essenciais:
  • Pesquisa semântica
  • Geração aumentada de recuperação (RAG)
  • Agrupamento de tópicos
  • Análise de sentimento e análise de texto
Visão Modelos projetados para processar, interpretar e analisar dados visuais, como imagens e vídeos, para que as máquinas possam "ver" e entender o mundo visual. Os seguintes modelos de base hospedados pelo Databricks são suportados:

Os seguintes modelos externos são suportados:
  • Modelos OpenAI GPT e série o com capacidades de visão
  • Modelos antrópicos Claude com capacidades de visão
  • Modelos Google Gemini com capacidades de visão
  • Outros modelos de fundação externos com recursos de visão que são compatíveis com OpenAI API também são suportados.
Recomendado sempre que for necessária uma análise automatizada, precisa e escalável de informações visuais:
  • Deteção e reconhecimento de objetos
  • Classificação das imagens
  • Segmentação de imagem
  • Compreensão do documento
Fundamentação Sistemas avançados de IA projetados para simular o pensamento lógico semelhante ao humano. Os modelos de raciocínio integram técnicas como lógica simbólica, raciocínio probabilístico e redes neurais para analisar o contexto, decompor tarefas e explicar sua tomada de decisão. Os seguintes modelos fundamentais são suportados e hospedados pelo Databricks:

Os seguintes modelos externos são suportados:
  • Modelos OpenAI com capacidades de raciocínio
  • Modelos antrópicos de Claude com capacidades de raciocínio
  • Modelos do Google Gemini com capacidades de raciocínio
Recomendado sempre que for necessária uma análise automatizada, precisa e escalável de informações visuais:
  • Geração de código
  • Criação e sumarização de conteúdos
  • Orquestração de agente

Chamada de função

O Databricks Function Calling é compatível com OpenAI e só está disponível durante a disponibilização do modelo como parte das APIs do Modelo de Fundação e dos endpoints de serviço que disponibilizam modelos externos . Para obter detalhes, consulte Chamada de função no Azure Databricks.

Resultados estruturados

As saídas estruturadas são compatíveis com OpenAI e só estão disponíveis durante o modelo que serve como parte das APIs do Foundation Model. Para obter detalhes, consulte Saídas estruturadas no Azure Databricks.

Armazenamento em cache de prompt

O armazenamento em cache de prompts é suportado para modelos Claude alojados no Databricks, como parte das APIs do Foundation Model.

Você pode especificar o cache_control parâmetro em suas solicitações de consulta para armazenar em cache o seguinte:

  • Mensagens de conteúdo de texto na matriz messages.content.
  • Pensando no conteúdo das mensagens no array messages.content.
  • Blocos de conteúdo de imagens na matriz messages.content.
  • Uso da ferramenta tools, resultados e definições no array.

Consulte a referência da API REST do modelo base.

Conteúdo de texto

{
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What's the date today?",
          "cache_control": { "type": "ephemeral" }
        }
      ]
    }
  ]
}

Razão do Conteúdo

{
  "messages": [
    {
      "role": "assistant",
      "content": [
        {
          "type": "reasoning",
          "summary": [
            {
              "type": "summary_text",
              "text": "Thinking...",
              "signature": "[optional]"
            },
            {
              "type": "summary_encrypted_text",
              "data": "[encrypted text]"
            }
          ]
        }
      ]
    }
  ]
}

ImagemConteúdo

O conteúdo da mensagem de imagem deve usar os dados codificados como fonte. Não há suporte para URLs.

{
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What’s in this image?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "data:image/jpeg;base64,[content]"
          },
          "cache_control": { "type": "ephemeral" }
        }
      ]
    }
  ]
}

ToolCallContent

{
  "messages": [
    {
      "role": "assistant",
      "content": "Ok, let’s get the weather in New York.",
      "tool_calls": [
        {
          "type": "function",
          "id": "123",
          "function": {
            "name": "get_weather",
            "arguments": "{\"location\":\"New York, NY\"}"
          },
          "cache_control": { "type": "ephemeral" }
        }
      ]
    }
  ]
}

Observação

A API REST do Databricks é compatível com OpenAI e difere da API Anthropic. Essas diferenças também afetam objetos de resposta como os seguintes:

  • A saída é retornada no choices campo.
  • Formato de fragmento de streaming. Todos os blocos aderem ao mesmo formato onde choices contém a resposta delta e o uso é retornado em cada bloco.
  • O motivo da parada é retornado no finish_reason campo.
    • Usos antrópicos: end_turn, stop_sequence, max_tokens, e tool_use
    • Respectivamente, o Databricks usa: stop, stop, lengthe tool_calls

Fale com LLMs suportados usando o AI Playground

Você pode interagir com modelos de linguagem grandes suportados usando o AI Playground. O AI Playground é um ambiente semelhante a um bate-papo onde você pode testar, solicitar e comparar LLMs do seu espaço de trabalho do Azure Databricks.

Parque infantil AI

Recursos adicionais