Limites e cotas de APIs do Modelo de Fundação

Esta página descreve os limites e cotas para cargas de trabalho de APIs de Modelo do Databricks Foundation.

As APIs de Modelo do Databricks Foundation impõem limites de taxa para garantir o desempenho confiável e a alocação justa de recursos entre todos os usuários. Esses limites variam de acordo com a camada de plataforma do workspace, o tipo de modelo de base e como você implanta seu modelo de base.

Limites de taxa de ponto de extremidade de pagamento por token

Os pontos de extremidade de pagamento por token são regidos por limites de taxa baseados em token e de consulta. Os limites de taxa baseados em token controlam o número máximo de tokens que podem ser processados por minuto e são impostos separadamente para tokens de entrada e saída.

Tokens de entrada por minuto (ITPM): o número máximo de tokens de entrada (de seus prompts) que podem ser processados em uma janela de 60 segundos. Um limite de taxa do ITPM controla a taxa de transferência do token de entrada de um ponto de extremidade.
Tokens de saída por minuto (OTPM) : o número máximo de tokens de saída (das respostas do modelo) que podem ser gerados em uma janela de 60 segundos. Um limite de taxa OTPM controla a taxa de transferência do token de saída de um ponto de extremidade.
Consultas por hora: o número máximo de consultas ou solicitações que podem ser processadas em uma janela de 60 minutos. Para aplicativos de produção com padrões de uso sustentados, o Databricks recomenda pontos de extremidade de taxa de transferência provisionados, que fornecem capacidade garantida.

Como os limites são controlados e impostos

O limite de taxa mais restritivo (ITPM, OTPM, QPH) se aplica a qualquer momento. Por exemplo, mesmo que você não tenha atingido o limite do ITPM, você ainda estará limitado à taxa se exceder o limite de QPH ou OTPM. Quando o limite de ITPM ou OTPM é atingido, as solicitações subsequentes recebem um erro 429 que indica que muitas solicitações foram recebidas. Essa mensagem persiste até que a janela de limite de taxa seja redefinida.

O Databricks rastreia e impõe limites de taxa de tokens por minuto (TPM) usando os seguintes recursos:

Característica Detalhes

Verificações de contabilidade e pré-admissão de token

Característica	Detalhes
Verificações de contabilidade e pré-admissão de token	Contagem de tokens de entrada: os tokens de entrada são contados do prompt real no momento da solicitação. Estimativa de token de saída: se você fornecer `max_tokens` em sua solicitação, o Databricks usará esse valor para estimar e reservar a capacidade do token de saída antes que a solicitação seja admitida para processamento. Validação de pré-admissão: o Databricks verifica se sua solicitação excederia os limites de ITPM ou OTPM antes do início do processamento. Se `max_tokens` você exceder os limites do OTPM, o Databricks rejeitará a solicitação imediatamente com um erro 429. Saída real versus estimada: depois que a resposta é gerada, os tokens de saída reais são contados. É importante ressaltar que, se o uso real do token for menor que o reservado `max_tokens`, o Databricks credita a diferença de volta à sua concessão de limite de taxa, tornando esses tokens imediatamente disponíveis para outras solicitações. Nenhum max_tokens especificado: se você não especificar `max_tokens`, o Databricks usará uma reserva padrão e a contagem real de tokens será reconciliada após a geração. Nota: Claude Sonnet 4 usa especificamente como padrão 1.000 tokens de saída quando `max_tokens` não está definido, retornando o motivo de término "comprimento" quando atingido. Esse não é o tamanho máximo do contexto do modelo. Claude 3.7 Sonnet não tem esse padrão.
Capacidade de intermitência e suavização	Buffer de intermitência: o limitador de taxa inclui um buffer pequeno para acomodar pequenas intermitências de tráfego acima da taxa nominal. Janela deslizante: o consumo de token é acompanhado usando um algoritmo de janela deslizante que fornece uma limitação de taxa mais suave do que os limites rígidos por minuto. Algoritmo de bucket de token: o Databricks usa uma implementação de bucket de token que permite alguma capacidade de intermitência, mantendo o limite médio de taxa ao longo do tempo.

Contagem de tokens de entrada: os tokens de entrada são contados do prompt real no momento da solicitação.
Estimativa de token de saída: se você fornecer max_tokens em sua solicitação, o Databricks usará esse valor para estimar e reservar a capacidade do token de saída antes que a solicitação seja admitida para processamento.
Validação de pré-admissão: o Databricks verifica se sua solicitação excederia os limites de ITPM ou OTPM antes do início do processamento. Se max_tokens você exceder os limites do OTPM, o Databricks rejeitará a solicitação imediatamente com um erro 429.
Saída real versus estimada: depois que a resposta é gerada, os tokens de saída reais são contados. É importante ressaltar que, se o uso real do token for menor que o reservado max_tokens, o Databricks credita a diferença de volta à sua concessão de limite de taxa, tornando esses tokens imediatamente disponíveis para outras solicitações.
Nenhum max_tokens especificado: se você não especificar max_tokens, o Databricks usará uma reserva padrão e a contagem real de tokens será reconciliada após a geração. Nota: Claude Sonnet 4 usa especificamente como padrão 1.000 tokens de saída quando max_tokens não está definido, retornando o motivo de término "comprimento" quando atingido. Esse não é o tamanho máximo do contexto do modelo. Claude 3.7 Sonnet não tem esse padrão.

Capacidade de intermitência e suavização

Buffer de intermitência: o limitador de taxa inclui um buffer pequeno para acomodar pequenas intermitências de tráfego acima da taxa nominal.
Janela deslizante: o consumo de token é acompanhado usando um algoritmo de janela deslizante que fornece uma limitação de taxa mais suave do que os limites rígidos por minuto.
Algoritmo de bucket de token: o Databricks usa uma implementação de bucket de token que permite alguma capacidade de intermitência, mantendo o limite médio de taxa ao longo do tempo.

Veja a seguir um exemplo de como a verificação de pré-admissão e o comportamento de crédito de volta funcionam.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Limites de taxa por modelo

As tabelas a seguir resumem os limites de taxa de ITPM, OTPM e QPH para pontos de extremidade de API de Modelo do Foundation de pagamento por token para workspaces da camada Enterprise:

Observação

A partir de 15 de fevereiro de 2026, Meta-Llama-3.1-405B-Instruct será desativado. Consulte modelos desativados para obter o modelo de substituição recomendado e orientações sobre como migrar durante a depreciação.

Modelos de linguagem grandes	Limite do ITPM	Limite do OTPM	Limite de QPH	Anotações
Qwen3-Next 80B A3B Instrução (Beta)	200,000	10,000		LLM de uso geral
GPT OSS 120B	200,000	10,000		LLM de uso geral
GPT Software de Código Aberto 20B	200,000	10,000		Variante de GPT menor
Gemma 3 12B	200,000	10,000	7,200	Modelo gemma do Google
Llama 4 Maverick	200,000	10,000	2,400	Versão mais recente do Llama
Instrução do Llama 3.3 70B	200,000	10,000	2,400	Modelo llama de médio porte
Instrução llama 3.1 8B	200,000	10,000	7,200	Modelo de Lhama Leve
Instrução do Llama 3.1 405B	5.000	500	1,200	Maior modelo de Lhama – limites reduzidos devido ao tamanho

Modelos antropáticos claude	Limite do ITPM	Limite do OTPM	Anotações
Claude 3.7 Sonnet	50,000	5.000	Modelo de Claude equilibrado
Claude Sonnet 4	50,000	5.000
Claude Opus 4.1	50,000	5.000
Claude Opus 4.5	200,000	20,000	Versão mais recente do Opus
Claude Soneto 4.5	50,000	5.000	Versão mais recente do Sonnet
Claude Haiku 4.5	50,000	5.000	Versão mais recente do Haiku

Inserindo modelos	Limite do ITPM	Limite do OTPM	Limite de QPH	Anotações
GTE Grande (En)	N/A	N/A	540,000	Modelo de inserção de texto – não gera inserções normalizadas
BGE Grande (En)	N/A	N/A	2,160,000	Modelo de inserção de texto

Gerenciar as melhores práticas de limites de taxa do TPM

Etapa 1. Monitorar o uso de token

Acompanhe as contagens de token de entrada e saída separadamente em seus aplicativos:

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Etapa 2. Implementar lógica de repetição

Adicione a retirada exponencial quando você encontrar erros de limite de taxa:

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Etapa 3. Otimizar o uso de token

Minimizar o comprimento do prompt: use prompts concisos e bem estruturados
Comprimento da saída do controle: use max_tokens o parâmetro para limitar o tamanho da resposta
Definir max_tokens explicitamente para Claude Sonnet 4: sempre especifique max_tokens ao usar o Claude Sonnet 4 para evitar o limite de token padrão de 1.000
Lote com eficiência: agrupar solicitações relacionadas quando possível, mantendo-se dentro dos limites

Etapa 4. Considere a seleção de modelo

Modelos menores para tarefas de alto volume: use modelos como Llama 3.1 8B para tarefas que exigem maior taxa de transferência
Modelos grandes para tarefas complexas: Reserve Llama 3.1 405B para tarefas que exigem capacidade máxima

Monitoramento e solução de problemas

Monitore os padrões de uso do token para otimizar o desempenho:

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Manipular erros de limite de taxa

Quando você excede os limites de taxa, a API retorna um 429 Too Many Requests erro:

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

A resposta de erro inclui:

limit_type: qual limite específico foi excedido (ITPM, OTPM, QPS ou QPH)
limit: o valor limite configurado
current: seu uso atual
retry_after: tempo de espera sugerido em segundos

Problemas comuns e soluções

Questão	Solução
Erros frequentes de 429	Implementar a retirada exponencial, reduzir a taxa de solicitação e solicitar limites de taxa mais altos
Limite do ITPM atingido	Otimizar o comprimento do prompt
Limite do OTPM atingido	Usar `max_tokens` para limitar o comprimento da resposta
Limite de QPH atingido	Distribuir solicitações mais uniformemente ao longo do tempo

Limites de taxa de transferência provisionado

Para cargas de trabalho de produção que exigem limites mais altos, os pontos de extremidade de taxa de transferência provisionados oferecem:

Sem restrições de TPM: capacidade de processamento com base em recursos provisionados
Limites de taxa mais altos: até 200 consultas por segundo por workspace
Desempenho previsível: recursos dedicados garantem latência consistente

Limites de token de saída

Observação

A partir de 15 de maio de 2026, Meta-Llama-3.1-405B-Instruct será desativado. Consulte modelos desativados para obter o modelo de substituição recomendado e orientações sobre como migrar durante a depreciação.

A tabela a seguir resume os limites do token de saída para cada modelo com suporte:

Modelo	Limite do token de saída
GPT OSS 120B	25,000
GPT Software de Código Aberto 20B	25,000
Gemma 3 12B	8,192
Llama 4 Maverick	8,192
Llama 3.1 405B	4.096
Llama 3.1 70B	8,192
Llama 3.1 8B	8,192

Limites adicionais

Veja a seguir as limitações para cargas de trabalho de taxa de transferência provisionadas:

Para implantar um modelo meta llama no Catálogo do system.ai Unity, você deve escolher a versão instrução aplicável. Não há suporte para versões base dos modelos meta llama para implantação do Catálogo do Unity. Consulte Implantar pontos de extremidade de taxa de transferência provisionados.
Para cargas de trabalho de taxa de transferência provisionadas que usam Llama 4 Maverick:
- O suporte para esse modelo em cargas de trabalho de taxa de transferência provisionada está na Versão Prévia Pública.
- Não há suporte para dimensionamento automático.
- Não há suporte para painéis de métricas.
- Não há suporte para divisão de tráfego em um ponto de extremidade que atenda ao Llama 4 Maverick. Você não pode servir vários modelos em um ponto de extremidade que serve o Llama 4 Maverick.

Disponibilidade regional e processamento de dados

Para obter a disponibilidade da região do modelo de fundação hospedada pelo Databricks, consulte a visão geral do Modelo do Foundation.

Para obter detalhes de processamento de dados e residência, consulte Processamento de dados e residência.

Recursos adicionais

Comentários

Esta página foi útil?

Last updated on 2025-12-22

Compartilhar via

Limites e cotas de APIs do Modelo de Fundação

Limites de taxa de ponto de extremidade de pagamento por token

Como os limites são controlados e impostos

Limites de taxa por modelo

Gerenciar as melhores práticas de limites de taxa do TPM

Etapa 1. Monitorar o uso de token

Etapa 2. Implementar lógica de repetição

Etapa 3. Otimizar o uso de token

Etapa 4. Considere a seleção de modelo

Monitoramento e solução de problemas

Manipular erros de limite de taxa

Problemas comuns e soluções

Limites de taxa de transferência provisionado

Limites de token de saída

Limites adicionais

Disponibilidade regional e processamento de dados

Recursos adicionais

Comentários

Recursos adicionais