Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Neste artigo, ficará a saber quais opções estão disponíveis para escrever pedidos de consulta para modelos de base e como enviá-los para o endpoint de serviço do modelo. Você pode consultar modelos de base hospedados por Databricks e modelos de fundação hospedados fora de Databricks.
Para solicitações de consulta de modelos tradicionais de ML ou Python, consulte Pontos de extremidade de serviço de consulta para modelos personalizados.
O Mosaic AI Model Serving suporta APIs de modelos de base e modelos externos para acessar modelos de fundação. O Model Serving usa uma API e SDK unificadas compatíveis com OpenAI para consultá-los. Isso torna possível experimentar e personalizar modelos básicos para produção em nuvens e provedores suportados.
Opções de consulta
O Mosaic AI Model Serving fornece as seguintes opções para enviar solicitações de consulta para endpoints que fornecem modelos de base:
| Método | Detalhes |
|---|---|
| Cliente OpenAI | Questione um modelo hospedado por um endpoint Mosaic AI Model Serving usando o cliente OpenAI. Especifique o nome do ponto de extremidade de serviço do modelo como a entrada model. Suportado para modelos de chat, incorporações e conclusão disponibilizados por APIs de Modelo de Base ou modelos externos. |
| Funções de IA | Invoque a inferência do modelo diretamente do SQL usando a ai_query função SQL. Consulte Exemplo: Consultar um modelo de fundação. |
| Servindo a interface do usuário | Selecione Consultar ponto de extremidade na página Ponto de extremidade de serviço . Insira os dados de entrada do modelo no formato JSON e clique em Enviar solicitação. Se o modelo tiver um exemplo de entrada registrado, use Mostrar exemplo para carregá-lo. |
| API REST | Chame e consulte o modelo usando a API REST. Consulte POST /serving-endpoints/{name}/invocations para obter detalhes. Para marcar solicitações para pontos de extremidade que hospedam vários modelos, consulte Consultar modelos individuais associados a um ponto de extremidade. |
| SDK de desenvolvimentos MLflow | Use a função predict() do MLflow Deployments SDK para consultar o modelo. |
| Databricks Python SDK | O Databricks Python SDK é uma camada sobre a API REST. Ele lida com detalhes de baixo nível, como autenticação, facilitando a interação com os modelos. |
Requerimentos
- Um modelo de ponto de extremidade de serviço.
- Um espaço de trabalho Databricks em uma região suportada.
- Para enviar uma solicitação de pontuação por meio do cliente OpenAI, API REST ou SDK de implantação MLflow, você deve ter um token de API Databricks.
Importante
Como prática recomendada de segurança para cenários de produção, o Databricks recomenda que você use tokens OAuth máquina a máquina para autenticação durante a produção.
Para teste e desenvolvimento, o Databricks recomenda o uso de um token de acesso pessoal pertencente a entidades de serviço em vez de usuários do espaço de trabalho. Para criar tokens para entidades de serviço, consulte Gerenciar tokens para uma entidade de serviço.
Instalar pacotes
Depois de selecionar um método de consulta, você deve primeiro instalar o pacote apropriado no cluster.
Cliente OpenAI
Para usar o cliente OpenAI, o databricks-sdk[openai] pacote precisa ser instalado em seu cluster. O Databricks SDK fornece um wrapper para construir o cliente OpenAI com autorização configurada automaticamente para consultar modelos de IA generativos. Execute o seguinte no seu bloco de notas ou no seu terminal local:
!pip install databricks-sdk[openai]>=0.35.0
O seguinte só é necessário ao instalar o pacote em um Notebook Databricks
dbutils.library.restartPython()
API REST
O acesso à API REST de serviço está disponível no Databricks Runtime for Machine Learning.
SDK de desenvolvimentos MLflow
!pip install mlflow
O seguinte só é necessário ao instalar o pacote em um Notebook Databricks
dbutils.library.restartPython()
Databricks Python SDK
O SDK do Databricks para Python já está instalado em todos os clusters do Azure Databricks que usam o Databricks Runtime 13.3 LTS ou superior. Para clusters do Azure Databricks que usam o Databricks Runtime 12.2 LTS e inferior, você deve instalar o SDK do Databricks para Python primeiro. Consulte Databricks SDK for Python.
Tipos de modelos de fundação
A tabela a seguir resume os modelos de base suportados com base no tipo de tarefa.
Importante
Meta-Llama-3.1-405B-Instruct será aposentado,
- A partir de 15 de fevereiro de 2026 para tarefas pagas por token.
- A partir de 15 de maio de 2026 para cargas de trabalho de taxa de transferência provisionadas.
Consulte Modelos descontinuados para obter o modelo de substituição recomendado e orientações sobre como migrar durante o processo de descontinuação.
| Tipo de tarefa | Descrição | Modelos suportados | Quando usar? Casos de uso recomendados |
|---|---|---|---|
| Fins gerais | Modelos concebidos para compreender e participar em conversas naturais de múltiplas interações. Eles são ajustados em grandes conjuntos de dados de diálogo humano, o que lhes permite gerar respostas contextualmente relevantes, rastrear o histórico de conversação e fornecer interações coerentes e semelhantes às humanas em vários tópicos. | Os seguintes modelos de base hospedados pelo Databricks são suportados:
Os seguintes modelos externos são suportados:
|
Recomendado para cenários em que diálogo natural em várias etapas e compreensão contextual são necessários:
|
| Incorporações | Os modelos de incorporação são sistemas de aprendizado de máquina que transformam dados complexos, como texto, imagens ou áudio, em vetores numéricos compactos chamados incorporações. Esses vetores capturam as características e relações essenciais dentro dos dados, permitindo comparação, agrupamento e pesquisa semântica eficientes. | Os seguintes modelos fundamentais são suportados e hospedados pelo Databricks: Os seguintes modelos externos são suportados:
|
Recomendado para aplicações em que a compreensão semântica, a comparação de semelhanças e a recuperação ou agrupamento eficiente de dados complexos são essenciais:
|
| Visão | Modelos projetados para processar, interpretar e analisar dados visuais, como imagens e vídeos, para que as máquinas possam "ver" e entender o mundo visual. | Os seguintes modelos de base hospedados pelo Databricks são suportados:
Os seguintes modelos externos são suportados:
|
Recomendado sempre que for necessária uma análise automatizada, precisa e escalável de informações visuais:
|
| Fundamentação | Sistemas avançados de IA projetados para simular o pensamento lógico semelhante ao humano. Os modelos de raciocínio integram técnicas como lógica simbólica, raciocínio probabilístico e redes neurais para analisar o contexto, decompor tarefas e explicar sua tomada de decisão. | Os seguintes modelos fundamentais são suportados e hospedados pelo Databricks:
Os seguintes modelos externos são suportados:
|
Recomendado sempre que for necessária uma análise automatizada, precisa e escalável de informações visuais:
|
Chamada de função
O Databricks Function Calling é compatível com OpenAI e só está disponível durante a disponibilização do modelo como parte das APIs do Modelo de Fundação e dos endpoints de serviço que disponibilizam modelos externos . Para obter detalhes, consulte Chamada de função no Azure Databricks.
Resultados estruturados
As saídas estruturadas são compatíveis com OpenAI e só estão disponíveis durante o modelo que serve como parte das APIs do Foundation Model. Para obter detalhes, consulte Saídas estruturadas no Azure Databricks.
Armazenamento em cache de prompt
O armazenamento em cache de prompts é suportado para modelos Claude alojados no Databricks, como parte das APIs do Foundation Model.
Você pode especificar o cache_control parâmetro em suas solicitações de consulta para armazenar em cache o seguinte:
- Mensagens de conteúdo de texto na matriz
messages.content. - Pensando no conteúdo das mensagens no array
messages.content. - Blocos de conteúdo de imagens na matriz
messages.content. - Uso da ferramenta
tools, resultados e definições no array.
Consulte a referência da API REST do modelo base.
Conteúdo de texto
{
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "What's the date today?",
"cache_control": { "type": "ephemeral" }
}
]
}
]
}
Razão do Conteúdo
{
"messages": [
{
"role": "assistant",
"content": [
{
"type": "reasoning",
"summary": [
{
"type": "summary_text",
"text": "Thinking...",
"signature": "[optional]"
},
{
"type": "summary_encrypted_text",
"data": "[encrypted text]"
}
]
}
]
}
]
}
ImagemConteúdo
O conteúdo da mensagem de imagem deve usar os dados codificados como fonte. Não há suporte para URLs.
{
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "What’s in this image?"
},
{
"type": "image_url",
"image_url": {
"url": "data:image/jpeg;base64,[content]"
},
"cache_control": { "type": "ephemeral" }
}
]
}
]
}
ToolCallContent
{
"messages": [
{
"role": "assistant",
"content": "Ok, let’s get the weather in New York.",
"tool_calls": [
{
"type": "function",
"id": "123",
"function": {
"name": "get_weather",
"arguments": "{\"location\":\"New York, NY\"}"
},
"cache_control": { "type": "ephemeral" }
}
]
}
]
}
Observação
A API REST do Databricks é compatível com OpenAI e difere da API Anthropic. Essas diferenças também afetam objetos de resposta como os seguintes:
- A saída é retornada no
choicescampo. - Formato de fragmento de streaming. Todos os blocos aderem ao mesmo formato onde
choicescontém a respostadeltae o uso é retornado em cada bloco. - O motivo da parada é retornado no
finish_reasoncampo.- Usos antrópicos:
end_turn,stop_sequence,max_tokens, etool_use - Respectivamente, o Databricks usa:
stop,stop,lengthetool_calls
- Usos antrópicos:
Fale com LLMs suportados usando o AI Playground
Você pode interagir com modelos de linguagem grandes suportados usando o AI Playground. O AI Playground é um ambiente semelhante a um bate-papo onde você pode testar, solicitar e comparar LLMs do seu espaço de trabalho do Azure Databricks.
Recursos adicionais
- Monitore modelos disponibilizados usando tabelas de inferência habilitadas pelo AI Gateway
- Implantar fluxos de trabalho de inferência em lote
- APIs do Modelo de Base do Databricks
- Modelos externos no Serviço de Modelos Mosaic AI
- Tutorial: Criação de endpoints de modelos externos para consultar modelos OpenAI
- Modelos de base hospedados pelo Databricks disponíveis nas APIs do Modelo de Fundação
- Referência da API REST do modelo de base