Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Este artigo contém uma referência rápida e uma descrição detalhada das cotas e limites do Azure OpenAI.
Âmbito de aplicação do contingente
As quotas e os limites não são aplicados ao nível do inquilino. Em vez disso, o nível mais alto de restrições de cota tem como escopo o nível de assinatura do Azure.
Atribuição de quotas regionais
Os limites de tokens por minuto (TPM) e solicitações por minuto (RPM) são definidos por região, por assinatura e por modelo ou tipo de implantação.
Por exemplo, se o modelo Padrão Global estiver listado com uma cota gpt-4.1 de 5 milhões de TPM e 5.000 RPM, cada região onde esse modelo ou tipo de implantação está disponível terá seu próprio pool de cotas dedicado desse valor para cada uma de suas assinaturas do Azure. Em uma única assinatura do Azure, é possível usar uma quantidade maior de cota total de TPM e RPM para um determinado modelo e tipo de implantação, desde que você tenha recursos e implantações de modelo espalhados por várias regiões.
Referência a quotas e limites
A seção a seguir fornece um guia rápido para as cotas e limites padrão que se aplicam ao Azure OpenAI:
| Nome do limite | Valor-limite |
|---|---|
| Recursos do Azure OpenAI por região, por assinatura do Azure | 30. |
| Limites de quota padrão do DALL-E 2 | 2 pedidos simultâneos. |
| Limites de quota padrão do DALL-E 3 | 2 unidades de capacidade (6 pedidos por minuto). |
| Limites de cota GPT-image-1 padrão | 3 unidades de capacidade (9 solicitações por minuto). |
| Limites de quota padrão para GPT-image-1-mini | 4 unidades de capacidade (12 pedidos por minuto). |
| Limites padrão de cotas do GPT-imagem-1.5 | 3 unidades de capacidade (9 pedidos por minuto). |
| Limites de cota padrão do Sora | 60 pedidos por minuto. |
| Limites de cota padrão do Sora 2 | 2 tarefas paralelas |
| Limites de cota padrão da API de áudio de fala para texto | 3 pedidos por minuto. |
| Número máximo de tokens de prompt por pedido | Varia de acordo com o modelo. Para obter mais informações, consulte Modelos do Azure OpenAI. |
| Máximo de implantações padrão por recurso | 32. |
| Máximo de implantações de modelo ajustado | 5. |
| Número total de empregos de formação por recurso | 100. |
| Máximo de trabalhos de treinamento em execução simultânea por recurso | 1 |
| Máximo de trabalhos de treinamento na fila | 20. |
| Máximo de arquivos por recurso (ajuste fino) | 50. |
| Tamanho total de todos os arquivos por recurso (ajuste fino) | 1 GB. |
| Tempo máximo de trabalho de formação (o trabalho falha se for excedido) | 720 horas. |
Dimensão máxima do trabalho de formação (tokens in training file) x (# of epochs) |
2 mil milhões. |
| Tamanho máximo de todos os ficheiros por carregamento (Azure OpenAI nos seus dados) | 16 MB. |
Número máximo ou entradas na matriz com /embeddings |
2,048. |
Número máximo de /chat/completions mensagens |
2,048. |
Número máximo de /chat/completions funções |
128. |
Número máximo de /chat completions ferramentas |
128. |
| Número máximo de unidades de taxa de transferência provisionadas por implantação | 100,000. |
| Máximo de arquivos por assistente ou thread | 10.000 ao usar a API ou o portal Microsoft Foundry. |
| Tamanho máximo de arquivo para assistentes e ajuste fino | 512 MB 200 MB através do portal Foundry. |
| Máximo de solicitações de upload de arquivos por recurso | 30 pedidos por segundo. |
| Tamanho máximo de todos os ficheiros carregados para assistentes | 200 GB. |
| Limitação de token do assistente | Limite de 2.000.000 tokens. |
GPT-4o e GPT-4.1 máximo de imagens por solicitação (número de imagens na matriz de mensagens ou histórico de conversas) |
50. |
GPT-4
vision-preview e GPT-4turbo-2024-04-09 tokens máximos padrão |
16. Aumente o valor do max_tokens parâmetro para evitar respostas truncadas.
GPT-4o O padrão máximo de tokens é 4.096. |
| Número máximo de cabeçalhos personalizados em solicitações de API1 | 10 |
| Limite de caracteres de mensagem | 1,048,576. |
| Tamanho da mensagem para arquivos de áudio | 20 MB. |
1 Nossas APIs atuais permitem até 10 cabeçalhos personalizados, que são passados pelo pipeline e retornados. Alguns clientes agora excedem essa contagem de cabeçalhos, o que resulta em erros HTTP 431. Não há solução para esse erro, a não ser reduzir o volume do cabeçalho. Em versões futuras da API, não passaremos por cabeçalhos personalizados. Recomendamos que os clientes não dependam de cabeçalhos personalizados em arquiteturas de sistema futuras.
Observação
Os limites das quotas estão sujeitos a alterações.
Série GPT-5.2
| Modelo | Tipo de implantação | RPM padrão | TPM padrão | RPM empresarial e MCA-E | TPM empresarial e MCA-E |
|---|---|---|---|---|---|
gpt-5.2 |
GlobalStandard | 10,000 | 1,000,000 | 100,000 | 10.000.000 |
gpt-5.2-chat |
GlobalStandard | 10,000 | 1,000,000 | 50,000 | 5,000,000 |
Série GPT-5.1
| Modelo | Tipo de implantação | RPM padrão | TPM padrão | RPM empresarial e MCA-E | TPM empresarial e MCA-E |
|---|---|---|---|---|---|
gpt-5.1 |
DataZoneStandard | 3,000 | 300,000 | 30,000 | 3,000,000 |
gpt-5.1 |
GlobalStandard | 10,000 | 1,000,000 | 100,000 | 10.000.000 |
gpt-5.1-chat |
GlobalStandard | 10,000 | 1,000,000 | 50,000 | 5,000,000 |
gpt-5.1-codex |
GlobalStandard | 1,000 | 1,000,000 | 10,000 | 10.000.000 |
gpt-5.1-codex-mini |
GlobalStandard | 1,000 | 1,000,000 | 10,000 | 10.000.000 |
gpt-5.1-codex-max |
GlobalStandard | 10,000 | 1,000,000 | 100,000 | 10.000.000 |
Série GPT-5
| Modelo | Tipo de implantação | RPM padrão | TPM padrão | RPM empresarial e MCA-E | TPM empresarial e MCA-E |
|---|---|---|---|---|---|
gpt-5 |
DataZoneStandard | 3,000 | 300,000 | 30,000 | 3,000,000 |
gpt-5 |
GlobalStandard | 10,000 | 1,000,000 | 100,000 | 10.000.000 |
gpt-5-chat |
GlobalStandard | 1,000 | 1,000,000 | 5.000 | 5,000,000 |
gpt-5-mini |
DataZoneStandard | 300 | 300,000 | 3,000 | 3,000,000 |
gpt-5-mini |
GlobalStandard | 1,000 | 1,000,000 | 10,000 | 10.000.000 |
gpt-5-nano |
DataZoneStandard | 2,000 | 2,000,000 | 50,000 | 50,000,000 |
gpt-5-nano |
GlobalStandard | 5.000 | 5,000,000 | 150,000 | 150,000,000 |
gpt-5-codex |
GlobalStandard | 1,000 | 1,000,000 | 10,000 | 10.000.000 |
gpt-5-pro |
GlobalStandard | 1,600 | 160,000 | 16 000 | 1,600,000 |
Limitações de velocidade do roteador modelo
| Modelo | Tipo de implantação | RPM padrão | TPM padrão | RPM empresarial e MCA-E | TPM empresarial e MCA-E |
|---|---|---|---|---|---|
model-router (2025-11-18) |
DataZoneStandard | 150 | 150,000 | 300 | 300,000 |
model-router (2025-11-18) |
GlobalStandard | 250 | 250 000 | 400 | 400,000 |
Limites de lotes
| Nome do limite | Valor-limite |
|---|---|
| Máximo de arquivos por recurso | 500 |
| Tamanho máximo do arquivo de entrada | 200 MB |
| Máximo de pedidos por ficheiro | 100,000 |
Limite de lotes
A tabela mostra o limite de cota de lote. Os valores de cota para lote global são representados em tokens enfileirados. Quando você envia um arquivo para processamento em lote, o número de tokens no arquivo é contado. Até que o trabalho em lote atinja um estado terminal, esses tokens contam em relação ao seu limite total de tokens enfileirados.
Lote mundial
| Modelo | Enterprise e MCA-E | Predefinido | Subscrições mensais baseadas em cartão de crédito | Assinaturas do MSDN | Azure para Estudantes, versões experimentais gratuitas |
|---|---|---|---|---|---|
gpt-4.1 |
5 B | 200 milhões | 50 M. | 90K | N/A |
gpt-4.1 mini |
15 B | 1 B | 50 M. | 90K | N/A |
gpt-4.1-nano |
15 B | 1 B | 50 M. | 90K | N/A |
gpt-4o |
5 B | 200 milhões | 50 M. | 90K | N/A |
gpt-4o-mini |
15 B | 1 B | 50 M. | 90K | N/A |
gpt-4-turbo |
300 milhões | 80 milhões | 40 milhões | 90K | N/A |
gpt-4 |
150 milhões | 30 milh | 5 milhões | 100.000 | N/A |
gpt-35-turbo |
10 B | 1 B | 100 milhões | 2 milhões | 50K |
o3-mini |
15 B | 1 B | 50 M. | 90K | N/A |
o4-mini |
15 B | 1 B | 50 M. | 90K | N/A |
gpt-5 |
5 B | 200 milhões | 50 M. | 90K | N/A |
B = mil milhões | M = milhão | K = mil
Agrupamento de dados por zonas
| Modelo | Enterprise e MCA-E | Predefinido | Subscrições mensais baseadas em cartão de crédito | Assinaturas do MSDN | Azure para Estudantes, versões experimentais gratuitas |
|---|---|---|---|---|---|
gpt-4.1 |
500 milhões | 30 milh | 30 milh | 90K | N/A |
gpt-4.1-mini |
1,5 B | 100 milhões | 50 M. | 90K | N/A |
gpt-4o |
500 milhões | 30 milh | 30 milh | 90K | N/A |
gpt-4o-mini |
1,5 B | 100 milhões | 50 M. | 90K | N/A |
o3-mini |
1,5 B | 100 milhões | 50 M. | 90K | N/A |
gpt-5 |
5 B | 200 milhões | 50 M. | 90K | N/A |
GPT-OSS
| Modelo | Tokens por minuto (TPM) | Pedidos por minuto (RPM) |
|---|---|---|
gpt-oss-120b |
5 milhões | 5 K |
Restrições de utilização do GPT-4
GPT-4.5 preview Padrão Global
| Modelo | Escalão de serviço | Limite de cotas em tokens por minuto | Pedidos por minuto |
|---|---|---|---|
gpt-4.5 |
Enterprise e MCA-E | 200K | 200 |
gpt-4.5 |
Predefinido | 150K | 150 |
Padrão Global da série GPT-4.1
| Modelo | Escalão de serviço | Limite de cota em tokens por minuto (TPM) | Pedidos por minuto |
|---|---|---|---|
gpt-4.1 (2025-04-14) |
Enterprise e MCA-E | 5 milhões | 5K |
gpt-4.1 (2025-04-14) |
Predefinido | 1 Milhão | 1K |
gpt-4.1-nano (2025-04-14) |
Enterprise e MCA-E | 150 milhões | 150K |
gpt-4.1-nano (2025-04-14) |
Predefinido | 5 milhões | 5K |
gpt-4.1-mini (2025-04-14) |
Enterprise e MCA-E | 150 milhões | 150K |
gpt-4.1-mini (2025-04-14) |
Predefinido | 5 milhões | 5K |
Padrão de zona de dados da série GPT-4.1
| Modelo | Escalão de serviço | Limite de cota em tokens por minuto (TPM) | Pedidos por minuto |
|---|---|---|---|
gpt-4.1 (2025-04-14) |
Enterprise e MCA-E | 2 milhões | 2K |
gpt-4.1 (2025-04-14) |
Predefinido | 300K | 300 |
gpt-4.1-nano (2025-04-14) |
Enterprise e MCA-E | 50 M. | 50K |
gpt-4.1-nano (2025-04-14) |
Predefinido | 2 milhões | 2K |
gpt-4.1-mini (2025-04-14) |
Enterprise e MCA-E | 50 M. | 50K |
gpt-4.1-mini (2025-04-14) |
Predefinido | 2 milhões | 2K |
GPT-4 Turbo
gpt-4 (turbo-2024-04-09) tem níveis de limite de taxa com limites mais elevados para determinados tipos de clientes.
| Modelo | Escalão de serviço | Limite de cotas em tokens por minuto | Pedidos por minuto |
|---|---|---|---|
gpt-4 (turbo-2024-04-09) |
Enterprise e MCA-E | 2 milhões | 12K |
gpt-4 (turbo-2024-04-09) |
Predefinido | 450K | 2,7K |
Limites de taxa padrão global de uso do computador
| Modelo | Escalão de serviço | Limite de cotas em tokens por minuto | Pedidos por minuto |
|---|---|---|---|
computer-use-preview |
Enterprise e MCA-E | 30 milh | 300K |
computer-use-preview |
Predefinido | 450K | 4,5K |
Limites de taxa da série O
Importante
A proporção de solicitações por minuto para tokens por minuto para cota pode variar de acordo com o modelo. Quando você implanta um modelo programaticamente ou solicita um aumento de cota, não tem controle granular sobre tokens por minuto e solicitações por minuto como valores independentes. A quota é atribuída em termos de unidades de capacidade, que têm quantidades correspondentes de pedidos por minuto e fichas por minuto.
| Modelo | Capacidade | Pedidos por minuto (RPM) | Tokens por minuto (TPM) |
|---|---|---|---|
| Modelos de chat mais antigos | 1 unidade | 6 Rotações Por Minuto (RPM) | 1.000 TPM |
o1 e o1-preview |
1 unidade | 1 rotação por minuto (RPM) | 6.000 TPM |
o3 |
1 unidade | 1 rotação por minuto (RPM) | 1.000 TPM |
o4-mini |
1 unidade | 1 rotação por minuto (RPM) | 1.000 TPM |
o3-mini |
1 unidade | 1 rotação por minuto (RPM) | 10.000 TPM |
o1-mini |
1 unidade | 1 rotação por minuto (RPM) | 10.000 TPM |
o3-pro |
1 unidade | 1 rotação por minuto (RPM) | 10.000 TPM |
Esse conceito é importante para a implantação do modelo programático, pois alterações na relação RPM/TPM podem resultar em má alocação acidental da cota.
Padrão Global da série O
| Modelo | Escalão de serviço | Limite de cotas em tokens por minuto | Pedidos por minuto |
|---|---|---|---|
codex-mini |
Enterprise e MCA-E | 10 milhões | 10.000 |
o3-pro |
Enterprise e MCA-E | 16 milhões | 1,6K |
o4-mini |
Enterprise e MCA-E | 10 milhões | 10.000 |
o3 |
Enterprise e MCA-E | 10 milhões | 10.000 |
o3-mini |
Enterprise e MCA-E | 50 M. | 5K |
o1 e o1-preview |
Enterprise e MCA-E | 30 milh | 5K |
o1-mini |
Enterprise e MCA-E | 50 M. | 5K |
codex-mini |
Predefinido | 1 Milhão | 1K |
o3-pro |
Predefinido | 1,6 milhões | 160 |
o4-mini |
Predefinido | 1 Milhão | 1K |
o3 |
Predefinido | 1 Milhão | 1K |
o3-mini |
Predefinido | 5 milhões | 500 |
o1 e o1-preview |
Predefinido | 3 milhões | 500 |
o1-mini |
Predefinido | 5 milhões | 500 |
série o Data Zone Standard
| Modelo | Escalão de serviço | Limite de cotas em tokens por minuto | Pedidos por minuto |
|---|---|---|---|
o3 |
Predefinido | 10 milhões | 10.000 |
o4-mini |
Predefinido | 10 milhões | 10.000 |
o3-mini |
Enterprise e MCA-E | 20 milhões | 2K |
o3-mini |
Predefinido | 2 milhões | 200 |
o1 |
Enterprise e MCA-E | 6 M. | 1K |
o1 |
Predefinido | 600K | 100 |
o1-preview e o1-mini Standard
| Modelo | Escalão de serviço | Limite de cotas em tokens por minuto | Pedidos por minuto |
|---|---|---|---|
o1-preview |
Enterprise e MCA-E | 600K | 100 |
o1-mini |
Enterprise e MCA-E | 1 Milhão | 100 |
o1-preview |
Predefinido | 300K | 50 |
o1-mini |
Predefinido | 500K | 50 |
Limites de taxa GPT-4O
gpt-4o e gpt-4o-mini têm níveis de limite de taxa com limites mais elevados para determinados tipos de clientes.
gpt-4o Padrão Global
| Modelo | Escalão de serviço | Limite de cotas em tokens por minuto | Pedidos por minuto |
|---|---|---|---|
gpt-4o |
Enterprise e MCA-E | 30 milh | 180K |
gpt-4o-mini |
Enterprise e MCA-E | 150 milhões | 1,5 milhões |
gpt-4o |
Predefinido | 450K | 2,7K |
gpt-4o-mini |
Predefinido | 2 milhões | 12K |
gpt-4o Padrão de zona de dados
| Modelo | Escalão de serviço | Limite de cotas em tokens por minuto | Pedidos por minuto |
|---|---|---|---|
gpt-4o |
Enterprise e MCA-E | 10 milhões | 60K |
gpt-4o-mini |
Enterprise e MCA-E | 20 milhões | 120K |
gpt-4o |
Predefinido | 300K | 1,8K |
gpt-4o-mini |
Predefinido | 1 Milhão | 6K |
gpt-4o Padrão
| Modelo | Escalão de serviço | Limite de cotas em tokens por minuto | Pedidos por minuto |
|---|---|---|---|
gpt-4o |
Enterprise e MCA-E | 1 Milhão | 6K |
gpt-4o-mini |
Enterprise e MCA-E | 2 milhões | 12K |
gpt-4o |
Predefinido | 150K | 900 |
gpt-4o-mini |
Predefinido | 450K | 2,7K |
Áudio GPT-4o
| Modelo | Escalão de serviço | Limite de cotas em tokens por minuto | Pedidos por minuto |
|---|---|---|---|
gpt-4o-audio-preview |
Predefinido | 450K | 1K |
gpt-4o-realtime-preview |
Predefinido | 800K | 1K |
gpt-4o-mini-audio-preview |
Predefinido | 2 milhões | 1K |
gpt-4o-mini-realtime-preview |
Predefinido | 800K | 1K |
gpt-audio |
Predefinido | 100.000 | 30 |
gpt-audio-mini |
Predefinido | 100.000 | 30 |
gpt-realtime |
Predefinido | 100.000 | 100 |
gpt-realtime-mini |
Predefinido | 100.000 | 100 |
gpt-realtime-mini-2025-12-15 |
Predefinido | 100.000 | 100 |
Limitações de velocidade da linha GPT-imagem-1
Padrão Global GPT-image-1
| Modelo | Escalão de serviço | Limite de cotas em tokens por minuto | Pedidos por minuto |
|---|---|---|---|
gpt-image-1 |
Enterprise e MCA-E | N/A | 60 |
gpt-image-1 |
Médio | N/A | 36 |
gpt-image-1 |
Low | N/A | 9 |
gpt-image-1-mini |
Low | N/A | 12 |
gpt-image-1-mini |
Médio | N/A | 36 |
gpt-image-1-mini |
High | N/A | 120 |
gpt-image-1 |
Low | N/A | 9 |
gpt-image-1 |
Médio | N/A | 18 |
gpt-image-1 |
High | N/A | 60 |
Níveis de utilização
As implantações do Padrão Global usam a infraestrutura global do Azure. Eles encaminham dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Da mesma forma, as implantações do Data Zone Standard permitem que você use a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação. Essa prática permite uma latência mais consistente para clientes com níveis baixos a médios de tráfego. Clientes com altos níveis sustentados de uso podem ver maior variabilidade na latência de resposta.
As camadas de uso do Azure OpenAI são projetadas para fornecer desempenho consistente para a maioria dos clientes com níveis baixos a médios de tráfego. Cada camada de uso define a taxa de transferência máxima (tokens por minuto) que você pode esperar com latência previsível. Quando o uso permanece dentro do nível atribuído, a latência permanece estável e os tempos de resposta são consistentes.
O que acontece se exceder o nível de utilização?
- Se a taxa de transferência da solicitação exceder o nível de uso, especialmente durante períodos de alta demanda, a latência da resposta poderá aumentar significativamente.
- A latência pode variar e, em alguns casos, pode ser mais de duas vezes maior do que quando se opera dentro da sua camada de uso.
- Essa variabilidade é mais percetível para clientes com alto uso sustentado ou padrões de tráfego intermitente.
Ações recomendadas Se exceder o nível de utilização
Se você encontrar 429 erros ou notar maior variabilidade de latência, aqui está o que você deve fazer:
- Solicitar um aumento de cota: visite o portal do Azure para solicitar uma cota maior para sua assinatura.
- Considere atualizar para uma oferta premium (PTU): para cargas de trabalho sensíveis à latência ou de grande volume, atualize para Unidades de Taxa de Transferência Provisionadas (PTU). A PTU fornece recursos dedicados, capacidade garantida e latência previsível, mesmo em escala. Essa é a melhor opção para aplicativos de missão crítica que exigem desempenho consistente.
- Monitore seu uso: revise regularmente suas métricas de uso no portal do Azure para garantir que você esteja operando dentro de seus limites de camada. Ajuste sua carga de trabalho ou estratégia de implantação conforme necessário.
O limite de uso determina o nível de uso acima do qual os clientes podem ver maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo. É o número total de tokens consumidos em todas as implantações em todas as assinaturas em todas as regiões para um determinado locatário.
Observação
As camadas de uso aplicam-se somente aos tipos de implantação Padrão, Padrão de Zona de Dados e Padrão Global. As camadas de uso não se aplicam a implantações globais em lote e largura de banda provisionada.
Padrão Global, Padrão de Zona de Dados e Padrão
| Modelo | Níveis de utilização por mês |
|---|---|
gpt-5 |
32 bilhões de tokens |
gpt-5-mini |
160 bilhões de tokens |
gpt-5-nano |
800 bilhões de tokens |
gpt-5-chat |
32 bilhões de tokens |
gpt-4
+
gpt-4-32k (todas as versões) |
6 bilhões de tokens |
gpt-4o |
12 bilhões de tokens |
gpt-4o-mini |
85 bilhões de tokens |
o3-mini |
50 bilhões de tokens |
o1 |
4 bilhões de tokens |
o4-mini |
50 bilhões de tokens |
o3 |
5 bilhões de tokens |
gpt-4.1 |
30 bilhões de tokens |
gpt-4.1-mini |
150 bilhões de tokens |
gpt-4.1-nano |
550 bilhões de tokens |
Outros tipos de oferta
Se sua assinatura do Azure estiver vinculada a determinados tipos de oferta, seus valores máximos de cota serão inferiores aos valores indicados nas tabelas anteriores.
A quota GPT-5-pro só está disponível para subscrições de quota MCA-E e predefinidas. Todos os outros tipos de oferta têm cota zero para este modelo por padrão.
A cota do modelo de raciocínio GPT-5 é de 20K TPM e 200 RPM para todos os tipos de oferta que não têm acesso à cota MCA-E ou padrão. GPT-5-chat é de 50K e 50 RPM.
Alguns tipos de oferta são restritos apenas a implantações de Padrão Global nas regiões Leste dos EUA2 e Suécia Central.
| Escalão de serviço | Limite de cotas em tokens por minuto |
|---|---|
Azure for Students |
1K (todos os modelos) Exceção o-series, GPT-4.1 e GPT 4.5 Preview: 0 |
MSDN |
GPT-4o-mini: 200K GPT 3.5 Série Turbo: 200K Série GPT-4: 50K computador-uso-visualização: 8K gpt-4o-visualização em tempo real: 1K Série O: 0 GPT 4.5 Prévia: 0 GPT-4.1: 50K GPT-4.1-nano: 200K |
Standard& Pay-as-you-go |
GPT-4o-mini: 200K GPT 3.5 Série Turbo: 200K Série GPT-4: 50K computador-uso-visualização: 30K Série O: 0 GPT 4.5 Prévia: 0 GPT-4.1: 50K GPT-4.1-nano: 200K |
Azure_MS-AZR-0111P Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
GPT-4o-mini: 200K GPT 3.5 Série Turbo: 200K Série GPT-4: 50K |
CSP Integration Sandbox
*
|
Todos os modelos: 0 |
Lightweight trialFree trialsAzure Pass |
Todos os modelos: 0 |
*Esse limite se aplica apenas a um pequeno número de assinaturas de área restrita CSP herdadas. Use a consulta a seguir para determinar qual quotaId valor está associado à sua assinatura.
Para determinar o tipo de oferta associado à sua subscrição, pode verificar o seu quotaId valor. Se o seu quotaId valor não estiver listado nesta tabela, a sua subscrição qualifica-se para a quota predefinida.
Consulte a referência da API.
az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
-H "Authorization: Bearer $access_token" \
-H "Content-Type: application/json"
Resultado
{
"authorizationSource": "Legacy",
"displayName": "Pay-As-You-Go",
"id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"state": "Enabled",
"subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"subscriptionPolicies": {
"locationPlacementId": "Public_2014-09-01",
"quotaId": "PayAsYouGo_2014-09-01",
"spendingLimit": "Off"
}
}
| Atribuição de quotas/Tipo de oferta | ID da quota de subscrição |
|---|---|
| Enterprise e MCA-E | EnterpriseAgreement_2014-09-01 |
| Pagamento conforme o consumo | PayAsYouGo_2014-09-01 |
| MSDN | MSDN_2014-09-01 |
| Sandbox de integração CSP | CSPDEVTEST_2018-05-01 |
| Azure para Estudantes | AzureForStudents_2018-01-01 |
| Versão experimental gratuita | FreeTrial_2014-09-01 |
| Azure Pass | AzurePass_2014-09-01 |
| Azure_MS-AZR-0111P | AzureInOpen_2014-09-01 |
| Azure_MS-AZR-0150P | LightweightTrial_2016-09-01 |
| Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
MPN_2014-09-01 |
| Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G |
MSDNDevTest_2014-09-01 |
| Predefinido | Qualquer ID de cota não listado nesta tabela |
Melhores práticas gerais para se manter dentro dos limites das taxas
Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as seguintes técnicas:
- Implemente a lógica de repetição na aplicação.
- Evite alterações acentuadas na carga de trabalho. Aumente a carga de trabalho gradualmente.
- Teste diferentes padrões de aumento de carga.
- Aumente a cota atribuída para a sua implantação. Mova a quota de outra implantação, se necessário.
Solicitar aumento de cota
Os pedidos de aumento de quota podem ser apresentados através do formulário de pedido de aumento de quota. Devido à alta demanda, os pedidos de aumento de cota são aceitos e preenchidos na ordem em que são recebidos. A prioridade é dada aos clientes que geram tráfego que consome a alocação de cota existente. Sua solicitação pode ser negada se essa condição não for atendida.
Você pode enviar uma solicitação de serviço para outros limites de tarifa.
Limites regionais de capacidade das quotas
Pode consultar a disponibilidade de quotas por região para a sua subscrição no portal da Foundry.
Para exibir a capacidade da cota por região para um modelo ou versão específica, você pode consultar a API de capacidade da sua assinatura. Forneça um subscriptionId, model_namee model_version e a API retorna a capacidade disponível para esse modelo em todas as regiões e tipos de implantação para sua assinatura.
Observação
Atualmente, tanto o portal Foundry como a API de capacidade retornam informação de quotas/capacidade para modelos que estão retirados e já não estão disponíveis.
Consulte a referência da API.
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
Conteúdo relacionado
- Explore como gerenciar a cota para suas implantações do Azure OpenAI.
- Saiba mais sobre os modelos subjacentes que alimentam o Azure OpenAI.