Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Esta página descreve os limites e cotas para cargas de trabalho de APIs do Databricks Foundation Model.
As APIs do Databricks Foundation Model impõem limites de taxa para garantir um desempenho confiável e uma alocação justa de recursos em todos os usuários. Esses limites variam de acordo com a camada da plataforma de espaço de trabalho, o tipo de modelo de base e como você implanta seu modelo de fundação.
Limites de taxa de endpoint de pagamento por token
Os endpoints de pagamento por token são regidos por limites de taxa baseados em token e consulta. Os limites de taxa baseados em tokens controlam o número máximo de tokens que podem ser processados por minuto e são aplicados separadamente para tokens de entrada e saída.
- Tokens de entrada por minuto (ITPM): o número máximo de tokens de entrada (de seus prompts) que podem ser processados em uma janela de 60 segundos. Um limite de taxa ITPM controla a taxa de transferência do token de entrada de um ponto de extremidade.
- Tokens de saída por minuto (OTPM): O número máximo de tokens de saída (das respostas do modelo) que podem ser gerados dentro de uma janela de 60 segundos. Um limite de taxa OTPM controla a taxa de transferência do token de saída de um ponto de extremidade.
- Consultas por hora: o número máximo de consultas ou solicitações que podem ser processadas dentro de uma janela de 60 minutos. Para aplicativos de produção com padrões de uso sustentados, a Databricks recomenda pontos de extremidade de taxa de transferência provisionados, que fornecem capacidade garantida.
Como os limites são rastreados e aplicados
O limite de taxa mais restritivo (ITPM, OTPM, QPH) aplica-se a qualquer momento. Por exemplo, mesmo que você não tenha atingido seu limite ITPM, você ainda poderá ter uma taxa limitada se exceder o limite QPH ou OTPM. Quando o limite ITPM ou OTPM é atingido, as solicitações subsequentes recebem um erro 429 que indica que muitas solicitações foram recebidas. Esta mensagem persiste até que a janela de limite de taxa seja redefinida.
O Databricks rastreia e impõe limites de taxa de tokens por minuto (TPM) usando os seguintes recursos:
| Característica | Detalhes |
|---|---|
| Contabilidade simbólica e controlos pré-admissão |
|
| Capacidade de burst e suavização |
|
Segue-se um exemplo de como funciona a verificação pré-admissão e o comportamento de devolução de crédito.
# Request with max_tokens specified
request = {
"prompt": "Write a story about...", # 10 input tokens
"max_tokens": 500 # System reserves 500 output tokens
}
# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately
# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests
Limites de taxa por modelo
As tabelas a seguir resumem os limites de taxa ITPM, OTPM e QPH para pontos de extremidade da API do Modelo de Base pago por token para espaços de trabalho da camada Enterprise:
Observação
A partir de 15 de fevereiro de 2026, a Meta-Llama-3.1-405B-Instruct será descontinuada. Consulte Modelos descontinuados para obter o modelo de substituição recomendado e orientações sobre como migrar durante o processo de descontinuação.
| Modelos linguísticos de grande dimensão | Limite ITPM | Limite OTPM | Limite QPH | Observações |
|---|---|---|---|---|
| Qwen3-Next 80B A3B Instruct (Beta) | 200,000 | 10,000 | LLM de uso geral | |
| GPT OSS 120B | 200,000 | 10,000 | LLM de uso geral | |
| GPT OSS 20B | 200,000 | 10,000 | Variante GPT menor | |
| Gemma 3 12B | 200,000 | 10,000 | 7,200 | Modelo Gemma do Google |
| Lama 4 Maverick | 200,000 | 10,000 | 2,400 | Última versão do Llama |
| "Llama 3.3 70B Instruct" | 200,000 | 10,000 | 2,400 | Modelo Llama de tamanho médio |
| Lama 3.1 8B Instruir | 200,000 | 10,000 | 7,200 | Modelo Llama leve |
| Llama 3.1 405B Instruir | 5.000 | 500 | 1200 |
|
| Modelos antrópicos de Claude | Limite ITPM | Limite OTPM | Observações |
|---|---|---|---|
| Claude 3.7 Soneto | 50,000 | 5.000 | Modelo Claude equilibrado |
| Claude Soneto 4 | 50,000 | 5.000 | |
| Claude Opus 4,1 | 50,000 | 5.000 | |
| Claude Opus 4.5 | 200,000 | 20,000 | Versão mais recente do Opus |
| Claude Soneto 4,5 | 50,000 | 5.000 | Versão mais recente do Sonnet |
| Claude Haiku 4,5 | 50,000 | 5.000 | Última versão do Haiku |
| Incorporação de modelos | Limite ITPM | Limite OTPM | Limite QPH | Observações |
|---|---|---|---|---|
| GTE Grande (En) | N/A | N/A | 540,000 | Modelo de incorporação de texto - não gera incorporações normalizadas |
| BGE Grande (En) | N/A | N/A | 2,160,000 | Modelo de incorporação de texto |
Gerenciar as práticas recomendadas de limites de taxa de TPM
Passo 1. Monitorar o uso do token
Acompanhe as contagens de tokens de entrada e saída separadamente em seus aplicativos:
# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens
# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
# Implement backoff strategy
pass
Passo 2. Implementar lógica de repetição
Adicione recuo exponencial quando encontrar erros de limite de taxa:
import time
import random
def retry_with_exponential_backoff(
func,
initial_delay: float = 1,
exponential_base: float = 2,
jitter: bool = True,
max_retries: int = 10,
):
"""Retry a function with exponential backoff."""
num_retries = 0
delay = initial_delay
while num_retries < max_retries:
try:
return func()
except Exception as e:
if "rate_limit" in str(e) or "429" in str(e):
num_retries += 1
if jitter:
delay *= exponential_base * (1 + random.random())
else:
delay *= exponential_base
time.sleep(delay)
else:
raise e
raise Exception(f"Maximum retries {max_retries} exceeded")
Passo 3. Otimize o uso do token
- Minimizar o comprimento do prompt: use prompts concisos e bem estruturados
-
Controle o comprimento da saída: use
max_tokenso parâmetro para limitar o tamanho da resposta -
Defina max_tokens explicitamente para Claude Sonnet 4: Sempre especifique
max_tokensao usar Claude Sonnet 4 para evitar o limite padrão de 1.000 tokens - Lote de forma eficiente: agrupe solicitações relacionadas quando possível, mantendo-se dentro dos limites
Passo 4. Considere a seleção de modelos
- Modelos menores para tarefas de alto volume: use modelos como Llama 3.1 8B para tarefas que exigem maior taxa de transferência
- Modelos grandes para tarefas complexas: Reserve Llama 3.1 405B para tarefas que exigem capacidade máxima
Monitorizar e resolver problemas
Monitore seus padrões de uso de token para otimizar o desempenho:
# Example: Log token usage for monitoring
import logging
logger = logging.getLogger(__name__)
def log_token_usage(response):
usage = response.usage
logger.info(f"Input tokens: {usage.prompt_tokens}")
logger.info(f"Output tokens: {usage.completion_tokens}")
logger.info(f"Total tokens: {usage.total_tokens}")
# Alert if approaching limits
if usage.prompt_tokens > ITPM_LIMIT * 0.8:
logger.warning("Approaching ITPM limit")
if usage.completion_tokens > OTPM_LIMIT * 0.8:
logger.warning("Approaching OTPM limit")
Manipular erros de limite de taxa
Quando você excede os limites de taxa, a API retorna um 429 Too Many Requests erro:
{
"error": {
"message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
"type": "rate_limit_exceeded",
"code": 429,
"limit_type": "input_tokens_per_minute",
"limit": 200000,
"current": 200150,
"retry_after": 15
}
}
A resposta de erro inclui:
-
limit_type: Qual limite específico foi excedido (ITPM, OTPM, QPS ou QPH) -
limit: O valor limite configurado -
current: Seu uso atual -
retry_after: Tempo de espera sugerido em segundos
Problemas e soluções comuns
| Questão | Solução |
|---|---|
| Erros frequentes 429 | Implemente backoff exponencial, reduza a taxa de solicitações e solicite limites de taxa mais altos |
| Limite ITPM atingido | Otimizar o comprimento do prompt |
| Limite OTPM atingido | Use max_tokens para limitar o comprimento da resposta |
| Limite QPH atingido | Distribua as solicitações de forma mais uniforme ao longo do tempo |
Limites de taxa de transferência provisionada
Para cargas de trabalho de produção que exigem limites mais altos, os pontos de extremidade de taxa de transferência provisionados oferecem:
- Sem restrições TPM: capacidade de processamento com base em recursos provisionados
- Limites de taxa mais altos: até 200 consultas por segundo por espaço de trabalho
- Desempenho previsível: recursos dedicados garantem latência consistente
Limites de token de saída
Observação
A partir de 15 de maio de 2026, a Meta-Llama-3.1-405B-Instruct será descontinuada. Consulte Modelos descontinuados para obter o modelo de substituição recomendado e orientações sobre como migrar durante o processo de descontinuação.
A tabela a seguir resume os limites de token de saída para cada modelo suportado:
| Modelo | Limite de token de saída |
|---|---|
| GPT OSS 120B | 25,000 |
| GPT OSS 20B | 25,000 |
| Gemma 3 12B | 8,192 |
| Lama 4 Maverick | 8,192 |
| Lama 3,1 405B | 4,096 |
| Llama 3,1 70B | 8,192 |
| Lama 3,1 8B | 8,192 |
Limites adicionais
A seguir estão as limitações para trabalhos com taxas de transferência provisionadas:
- Para implantar um modelo
system.aiMeta Llama no Unity Catalog, você deve escolher a versão Instruct aplicável. As versões base dos modelos Meta Llama não são suportadas para implantação a partir do Unity Catalog. Consulte Implantar pontos de extremidade de taxa de transferência provisionados. - Para cargas de trabalho de taxa de transferência provisionadas que usam o Llama 4 Maverick:
- O suporte para esse modelo em cargas de trabalho de taxa de transferência provisionadas está em Visualização pública.
- O dimensionamento automático não é suportado.
- Os painéis de métricas não são suportados.
- A divisão de tráfego não é suportada em um ponto de extremidade que serve Llama 4 Maverick. Você não pode servir vários modelos em um ponto de extremidade que serve Llama 4 Maverick.
Disponibilidade regional e processamento de dados
Para obter a disponibilidade da região do modelo de base hospedado pelo Databricks, consulte Visão geral do modelo de fundação.
Para obter detalhes sobre processamento de dados e residência, consulte Processamento de dados e residência.