Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Neste artigo, aprende como escrever solicitações de consulta para modelos fundamentais otimizados para tarefas visuais e enviá-las para o endpoint de serviço do modelo.
O Mosaic AI Model Serving fornece uma API unificada para entender e analisar imagens usando uma variedade de modelos de base, desbloqueando recursos multimodais poderosos. Essa funcionalidade está disponível por meio de modelos hospedados em Databricks selecionados como parte das APIs do Modelo de Base e servindo pontos de extremidade que atendem modelos externos.
Requerimentos
- Consulte Requisitos.
- Instale o pacote apropriado no cluster com base na opção de cliente de consulta escolhida.
Exemplos de consulta
Cliente OpenAI
Para usar o cliente OpenAI, especifique o nome do ponto de extremidade do modelo como entrada model.
from openai import OpenAI
import base64
import httpx
client = OpenAI(
api_key="dapi-your-databricks-token",
base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)
# encode image
image_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image_data = base64.standard_b64encode(httpx.get(image_url).content).decode("utf-8")
# OpenAI request
completion = client.chat.completions.create(
model="databricks-claude-sonnet-4-5",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "what's in this image?"},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image_data}"},
},
],
}
],
)
print(completion.choices[0].message.content)
A API de conclusão de bate-papo suporta várias entradas de imagem, permitindo que o modelo analise cada imagem e sintetize informações de todas as entradas para gerar uma resposta ao prompt.
from openai import OpenAI
import base64
import httpx
client = OpenAI(
api_key="dapi-your-databricks-token",
base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)
# Encode multiple images
image1_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image1_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")
image2_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image2_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")
# OpenAI request
completion = client.chat.completions.create(
model="databricks-claude-sonnet-4-5",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "What are in these images? Is there any difference between them?"},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image1_data}"},
},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image2_data}"},
},
],
}
],
)
print(completion.choices[0].message.content)
SQL
Importante
O exemplo a seguir usa a função SQL interna, ai_query. Esta função está em Pré-visualização Pública e a definição pode mudar.
O seguinte consulta um modelo fundacional suportado pelas APIs do Databricks Foundation Model para entrada multimodal usando a função AI ai_query().
> SELECT *, ai_query(
'databricks-llama-4-maverick',
'what is this image about?', files => content)
as output FROM READ_FILES("/Volumes/main/multimodal/unstructured/image.jpeg");
Modelos suportados
Consulte Tipos de modelos de base sobre os modelos de visão suportados.
Requisitos de imagem de entrada
| Modelo(s) | Formatos suportados | Várias imagens por solicitação | Limitações de tamanho de imagem | Recomendações de redimensionamento de imagem | Considerações sobre a qualidade da imagem |
|---|---|---|---|---|---|
databricks-gpt-5 |
|
Até 500 entradas de imagem individuais por solicitação | Limite de tamanho do ficheiro: até 10 MB de tamanho total da carga útil por pedido | N/A |
|
databricks-gpt-5-mini |
|
Até 500 entradas de imagem individuais por solicitação | Limite de tamanho do ficheiro: até 10 MB de tamanho total da carga útil por pedido | N/A |
|
databricks-gpt-5-nano |
|
Até 500 entradas de imagem individuais por solicitação | Limite de tamanho do ficheiro: até 10 MB de tamanho total da carga útil por pedido | N/A |
|
databricks-gemma-3-12b |
|
Até 5 imagens para solicitações de API
|
Limite de tamanho de arquivo: 10 MB no total em todas as imagens por solicitação de API | N/A | N/A |
databricks-llama-4-maverick |
|
Até 5 imagens para solicitações de API
|
Limite de tamanho de arquivo: 10 MB no total em todas as imagens por solicitação de API | N/A | N/A |
|
|
|
|
Para um desempenho ideal, redimensione as imagens antes de as carregar se forem demasiado grandes.
|
|
Conversão de imagem em token
Esta seção se aplica somente às APIs do Modelo de Base. Para modelos externos, consulte a documentação do provedor.
Cada imagem em uma solicitação para um modelo de fundação aumenta o uso do token. Consulte a calculadora de preços para estimar o preço da imagem com base no uso do token e no modelo que você está usando.
Limitações da compreensão da imagem
Esta seção se aplica somente às APIs do Modelo de Base. Para modelos externos, consulte a documentação do provedor.
A seguir estão as limitações de compreensão de imagem para os modelos de fundação suportados e hospedados pelo Databricks.
| Modelo | Limitações |
|---|---|
Os seguintes modelos Claude são suportados:
|
A seguir estão os limites para modelos Claude em Databricks:
|