Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Este artigo descreve como começar a usar APIs do Modelo de Base para servir e consultar LLMs no Databricks.
A maneira mais fácil de começar a servir e consultar modelos LLM no Databricks é usar as APIs do Foundation Model num esquema de pagamento por token. As APIs fornecem acesso a modelos básicos populares a partir de pontos de extremidade de pagamento por utilização de token, que estão automaticamente disponíveis na interface de serviço do seu espaço de trabalho Databricks. Consulte Modelos fundamentais hospedados pelo Databricks disponíveis nas APIs de Modelos Fundamentais.
Você também pode testar e conversar com modelos de pagamento por token usando o AI Playground. Veja Converse com LLMs e crie protótipos de aplicações de IA generativa usando o AI Playground.
Para cargas de trabalho de produção, particularmente aquelas com um modelo ajustado ou que exigem garantias de desempenho, o Databricks recomenda o uso de APIs do Modelo de Base em um ponto de extremidade com taxa de transferência provisionada.
Requirements
- Um espaço de trabalho Databricks numa região suportada para APIs do Modelo de Fundação pay-per-token.
- Um token Databricks de acesso pessoal para consultar e aceder a endpoints do Mosaic AI Model Serving usando o cliente OpenAI.
Important
Como prática recomendada de segurança para cenários de produção, o Databricks recomenda que se use tokens OAuth de máquina para máquina para autenticação durante a produção.
Para testes e desenvolvimento, a Databricks recomenda a utilização de um token de acesso pessoal pertencente a principais de serviço em vez de utilizadores do espaço de trabalho. Para criar tokens para entidades de serviço, consulte Gerenciar tokens para uma entidade de serviço.
Introdução ao uso de APIs do Modelo de Base
O exemplo a seguir deve ser executado em um bloco de anotações Databricks. O exemplo de código consulta o modelo Meta Llama 3.1 405B Instruct que é servido no endpoint de pagamento por token databricks-meta-llama-3-1-405b-instruct.
Neste exemplo, você usa o cliente OpenAI para consultar o modelo preenchendo o model campo com o nome do ponto de extremidade de serviço do modelo que hospeda o modelo que você deseja consultar. Use o seu token de acesso pessoal para preencher o DATABRICKS_TOKEN e a sua instância de espaço de trabalho do Databricks para conectar o cliente OpenAI ao Databricks.
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")
client = OpenAI(
api_key=DATABRICKS_TOKEN, # your personal access token
base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)
chat_completion = client.chat.completions.create(
messages=[
{
"role": "system",
"content": "You are an AI assistant",
},
{
"role": "user",
"content": "What is a mixture of experts model?",
}
],
model="databricks-meta-llama-3-1-405b-instruct",
max_tokens=256
)
print(chat_completion.choices[0].message.content)
Note
Se encontrar a seguinte mensagem ImportError: cannot import name 'OpenAI' from 'openai', atualize a versão do seu openai usando !pip install -U openai. Depois de instalar o pacote, execute dbutils.library.restartPython().
Resultados esperados:
{
"id": "xxxxxxxxxxxxx",
"object": "chat.completion",
"created": "xxxxxxxxx",
"model": "databricks-meta-llama-3-1-405b-instruct",
"choices": [
{
"index": 0,
"message":
{
"role": "assistant",
"content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
},
"finish_reason": "stop"
}
],
"usage":
{
"prompt_tokens": 123,
"completion_tokens": 23,
"total_tokens": 146
}
}
Próximos passos
- Utilize a plataforma de IA para experimentar diferentes modelos numa interface de bate-papo familiar.
- Use modelos base.
- Acesse modelos hospedados fora do Databricks usando modelos externos.
- Saiba como implantar modelos afinados usando endpoints com largura de banda provisionada.
- Explore métodos para monitorar a qualidade do modelo e a integridade do ponto final.