Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Observação
Este documento refere-se ao portal Microsoft Foundry (clássico).
🔄 Altere para a nova documentação do Microsoft Foundry se estiver a utilizar o novo portal.
Observação
Este documento refere-se ao portal Microsoft Foundry (novo ).
Este artigo lista uma seleção de modelos Microsoft Foundry vendidos diretamente pela Azure, juntamente com as suas capacidades, tipos de implementação e regiões de disponibilidade, excluindo modelos obsoletos e legados. Para ver uma lista de modelos Azure OpenAI suportados pelo Foundry Agent Service, consulte Modelos suportados pelo Agent Service.
Os modelos vendidos diretamente pelo Azure incluem todos os modelos OpenAI do Azure e modelos específicos selecionados dos principais fornecedores.
Dependendo do tipo de projeto que usas no Microsoft Foundry, vês uma seleção diferente de modelos. Especificamente, se usar um projeto Foundry construído sobre um recurso Foundry, verá os modelos disponíveis para implementação padrão num recurso Foundry. Alternativamente, se utilizar um projeto baseado em hub hospedado por um hub da Foundry, verá modelos disponíveis para implementação em computação gerida e em APIs serverless. Essas seleções de modelo geralmente se sobrepõem porque muitos modelos oferecem suporte a várias opções de implantação.
Os modelos de fundição estão disponíveis para implantação padrão em um recurso de fundição.
Para saber mais sobre os atributos dos Modelos Foundry vendidos diretamente pela Azure, consulte Explorar Modelos Foundry.
Observação
Os modelos Foundry vendidos diretamente pela Azure incluem também modelos selecionados de fornecedores de modelos de topo, tais como:
- Laboratórios da Floresta Negra:
FLUX.2-pro,FLUX.1-Kontext-pro,FLUX-1.1-pro - Cohere:
Cohere-command-a,embed-v-4-0,Cohere-rerank-v4.0-pro,Cohere-rerank-v4.0-fast - DeepSeek:
DeepSeek-V3.2,DeepSeek-V3.2-Speciale,DeepSeek-V3.1,DeepSeek-V3-0324,DeepSeek-R1-0528,DeepSeek-R1 - IA Moonshot:
Kimi-K2-Thinking - Meta:
Llama-4-Maverick-17B-128E-Instruct-FP8,Llama-3.3-70B-Instruct - Microsoft:
MAI-DS-R1,model-router - Mistral:
mistral-document-ai-2505,Mistral-Large-3 - xAI:
grok-code-fast-1,grok-3,grok-3-mini,grok-4-fast-reasoning,grok-4-fast-non-reasoning, ,grok-4
Para saber mais sobre esses modelos, alterne para Outras coleções de modelos na parte superior deste artigo.
Azure OpenAI em modelos Microsoft Foundry
O Azure OpenAI é alimentado por um conjunto diversificado de modelos com diferentes capacidades e preços. A disponibilidade do modelo varia de acordo com a região e a nuvem. Para obter a disponibilidade do modelo do Azure Government, consulte Azure OpenAI no Azure Government.
| Models | Description |
|---|---|
| Série GPT-5.2 |
NOVOgpt-5.2, gpt-5.2-chat (Pré-visualização) |
| Série GPT-5.1 |
NOVO,gpt-5.1gpt-5.1-chat , gpt-5.1-codex,gpt-5.1-codex-mini |
| Sora | NOVO sora-2 |
| Série GPT-5 | GPT-5, GPT-5-mini, GPT-5-nano, GPT-5-chat |
| GPT-OSS | modelos de raciocínio de peso aberto |
| códice-mini | Versão afinada do o4-mini. |
| Série GPT-4.1 | GPT-4.1, GPT-4.1-mini, GPT-4.1-nano |
| computer-use-preview | Um modelo experimental treinado para uso com a ferramenta de uso do computador da API de Respostas. |
| Modelos da série O | Modelos de raciocínio com resolução avançada de problemas e maior foco e capacidade. |
| GPT-4o, GPT-4o mini e GPT-4 Turbo | Modelos OpenAI do Azure com versões multimodais capazes de aceitar tanto texto como imagens como entrada. |
| GPT-4 | Um conjunto de modelos que melhoram o GPT-3.5 e podem compreender e gerar linguagem natural e código. |
| GPT-3.5 | Um conjunto de modelos que melhoram o GPT-3 e podem compreender e gerar linguagem natural e código. |
| Embeddings | Um conjunto de modelos que podem converter texto em forma vetorial numérica para facilitar a medição da semelhança de textos. |
| Geração de imagens | Uma série de modelos que podem gerar imagens originais a partir de linguagem natural. |
Video generation |
Um modelo que pode gerar cenas de vídeo originais a partir de instruções de texto. |
| Áudio | Uma série de modelos para conversão de fala para texto, tradução, e de texto para fala. Os modelos de áudio GPT-4o suportam fala de baixa latência , interações conversacionais de saída de fala ou geração de áudio. |
GPT-5.2
Disponibilidade da região
| Modelo | Região |
|---|---|
gpt-5.2 |
Leste dos EUA 2 & Suécia Central (Padrão Global) |
gpt-5.2-chat |
Leste dos EUA 2 & Suécia Central (Padrão Global) |
O acesso será concedido com base nos critérios de elegibilidade da Microsoft. Os clientes que anteriormente se inscreveram e receberam acesso a um modelo de acesso limitado, não precisam se candidatar novamente, pois suas assinaturas aprovadas receberão acesso automaticamente após o lançamento do modelo.
| ID do modelo | Description | Janela de contexto | Máximo de Tokens de Saída | Dados de formação (até) |
|---|---|---|---|---|
gpt-5.2 (2025-12-11) |
-
Fundamentação - API de conclusão de chat. - API de respostas. - Resultados estruturados. - Processamento de texto e imagem. - Funções, ferramentas e chamadas paralelas. - Resumo completo das capacidades. |
400,000 Entrada: 272.000 Produção: 128.000 |
128,000 | Outubro de 2024 |
gpt-5.2-chat (2025-12-11)Preview |
- API de conclusão de chat. - API de respostas. - Resultados estruturados - Funções, ferramentas e chamadas paralelas. |
128,000 Entrada: 111.616 Potência: 16.384 |
16,384 | Outubro de 2024 |
GPT-5,1
Disponibilidade da região
| Modelo | Região |
|---|---|
gpt-5.1 |
Leste US2 & Suécia Central (Padrão Global & Padrão DataZone) |
gpt-5.1-chat |
Leste dos EUA 2 & Suécia Central (Padrão Global) |
gpt-5.1-codex |
Leste dos EUA 2 & Suécia Central (Padrão Global) |
gpt-5.1-codex-mini |
Leste dos EUA 2 & Suécia Central (Padrão Global) |
gpt-5.1-codex-max |
Leste dos EUA 2 & Suécia Central (Padrão Global) |
O acesso será concedido com base nos critérios de elegibilidade da Microsoft. Os clientes que anteriormente se inscreveram e receberam acesso a um modelo de acesso limitado, não precisam se candidatar novamente, pois suas assinaturas aprovadas receberão acesso automaticamente após o lançamento do modelo.
| ID do modelo | Description | Janela de contexto | Máximo de Tokens de Saída | Dados de formação (até) |
|---|---|---|---|---|
gpt-5.1 (2025-11-13) |
-
Fundamentação - API de conclusão de chat. - API de respostas. - Resultados estruturados. - Processamento de texto e imagem. - Funções, ferramentas e chamadas paralelas. - Resumo completo das capacidades. |
400,000 Entrada: 272.000 Produção: 128.000 |
128,000 | 30 de setembro de 2024 |
gpt-5.1-chat (2025-11-13) |
-
Fundamentação - API de conclusão de chat. - API de respostas. - Resultados estruturados - Funções, ferramentas e chamadas paralelas. |
128,000 Entrada: 111.616 Potência: 16.384 |
16,384 | 30 de setembro de 2024 |
gpt-5.1-codex (2025-11-13) |
-
Somente API de respostas . - Processamento de texto e imagem - Resultados estruturados. - Funções, ferramentas e chamadas paralelas. - Resumo completo das capacidades - Otimizado para Codex CLI & Codex VS Code extension |
400,000 Entrada: 272.000 Produção: 128.000 |
128,000 | 30 de setembro de 2024 |
gpt-5.1-codex-mini (2025-11-13) |
-
Somente API de respostas . - Processamento de texto e imagem - Resultados estruturados. - Processamento de texto e imagem. - Funções, ferramentas e chamadas paralelas. - Resumo completo das capacidades - Otimizado para Codex CLI & Codex VS Code extension |
400,000 Entrada: 272.000 Produção: 128.000 |
128,000 | 30 de setembro de 2024 |
gpt-5.1-codex-max (2025-12-04) |
-
Somente API de respostas . - Processamento de texto e imagem - Resultados estruturados. - Processamento de texto e imagem. - Funções, ferramentas e chamadas paralelas. - Resumo completo das capacidades - Otimizado para Codex CLI & Codex VS Code extension |
400,000 Entrada: 272.000 Produção: 128.000 |
128,000 | 30 de setembro de 2024 |
Importante
gpt-5.1reasoning_effortassume o valor padrão denone. Ao atualizar de modelos de raciocínio anteriores para ogpt-5.1, lembre-se de que pode ser necessário alterar seu código para passar um nívelreasoning_effortexplicitamente, caso queira que o raciocínio ocorra.gpt-5.1-chatAdiciona recursos de raciocínio integrados. Como outros modelos de raciocínio, ele não suporta parâmetros comotemperature. Se atualizar de usargpt-5-chat(que não é um modelo de raciocínio) paragpt-5.1-chat, certifique-se de remover quaisquer parâmetros personalizados, comotemperature, do seu código, que não são suportados por modelos de raciocínio.gpt-5.1-codex-maxadiciona suporte para definirreasoning_effortparaxhigh. O esforçononede raciocínio não é suportado porgpt-5.1-codex-max.
GPT-5
Disponibilidade da região
| Modelo | Região |
|---|---|
gpt-5 (2025-08-07) |
Consulte a tabela de modelos. |
gpt-5-mini (2025-08-07) |
Consulte a tabela de modelos. |
gpt-5-nano (2025-08-07) |
Consulte a tabela de modelos. |
gpt-5-chat (2025-08-07) |
Consulte a tabela de modelos. |
gpt-5-chat (2025-10-03) |
Leste US2 (Padrão Global) e Suécia Central (Padrão Global) |
gpt-5-codex (2025-09-11) |
Leste US2 (Padrão Global) e Suécia Central (Padrão Global) |
gpt-5-pro (2025-10-06) |
Leste US2 (Padrão Global) e Suécia Central (Padrão Global) |
O registo é necessário para aceder aos modelos gpt-5-pro, gpt-5, & gpt-5-codex.
gpt-5-mini,gpt-5-nanoegpt-5-chatnão requerem registo.
O acesso será concedido com base nos critérios de elegibilidade da Microsoft. Os clientes que se inscreveram anteriormente e receberam acesso ao o3, não precisam se candidatar novamente, pois suas assinaturas aprovadas receberão acesso automaticamente após o lançamento do modelo.
| ID do modelo | Description | Janela de contexto | Máximo de Tokens de Saída | Dados de formação (até) |
|---|---|---|---|---|
gpt-5 (2025-08-07) |
-
Fundamentação - API de conclusão de chat. - API de respostas. - Resultados estruturados. - Processamento de texto e imagem. - Funções, ferramentas e chamadas paralelas. - Resumo completo das capacidades. |
400,000 Entrada: 272.000 Produção: 128.000 |
128,000 | 30 de setembro de 2024 |
gpt-5-mini (2025-08-07) |
-
Fundamentação - API de conclusão de chat. - API de respostas. - Resultados estruturados. - Processamento de texto e imagem. - Funções, ferramentas e chamadas paralelas. - Resumo completo das capacidades. |
400,000 Entrada: 272.000 Produção: 128.000 |
128,000 | 31 de maio de 2024 |
gpt-5-nano (2025-08-07) |
-
Fundamentação - API de conclusão de chat. - API de respostas. - Resultados estruturados. - Processamento de texto e imagem. - Funções, ferramentas e chamadas paralelas. - Resumo completo das capacidades. |
400,000 Entrada: 272.000 Produção: 128.000 |
128,000 | 31 de maio de 2024 |
gpt-5-chat (2025-08-07)Preview |
- API de conclusão de chat. - API de respostas. - Entrada: Texto/Imagem - Saída: Somente texto |
128,000 | 16,384 | 30 de setembro de 2024 |
gpt-5-chat (2025-10-03)Previsualizar1 |
- API de conclusão de chat. - API de respostas. - Entrada: Texto/Imagem - Saída: Somente texto |
128,000 | 16,384 | 30 de setembro de 2024 |
gpt-5-codex (2025-09-11) |
-
Somente API de respostas . - Entrada: Texto/Imagem - Saída: Somente texto - Resultados estruturados. - Processamento de texto e imagem. - Funções, ferramentas e chamadas paralelas. - Resumo completo das capacidades - Otimizado para Codex CLI & Codex VS Code extension |
400,000 Entrada: 272.000 Produção: 128.000 |
128,000 | - |
gpt-5-pro (2025-10-06) |
-
Fundamentação - API de respostas. - Resultados estruturados. - Processamento de texto e imagem. - Funções e ferramentas - Resumo completo das capacidades. |
400,000 Entrada: 272.000 Produção: 128.000 |
128,000 | 30 de setembro de 2024 |
Observação
gpt-5-chat A versão 2025-10-03 1 introduz uma melhoria significativa focada nas capacidades de inteligência emocional e saúde mental. Esta atualização integra conjuntos de dados especializados e estratégias de resposta refinadas para melhorar a capacidade do modelo para:
- Compreender e interpretar o contexto emocional com mais precisão, permitindo interações matizadas e empáticas.
- Dar respostas solidárias e responsáveis em conversas relacionadas com a saúde mental, garantindo sensibilidade e adesão às melhores práticas.
Essas melhorias visam tornar o bate-papo GPT-5 mais sensível ao contexto, centrado no ser humano e confiável em cenários onde o tom emocional e as considerações de bem-estar são críticos.
GPT-OSS
Disponibilidade da região
| Modelo | Região |
|---|---|
gpt-oss-120b |
Todas as regiões do Azure OpenAI |
Capabilities
| ID do modelo | Description | Janela de contexto | Máximo de Tokens de Saída | Dados de formação (até) |
|---|---|---|---|---|
gpt-oss-120b (Pré-visualização) |
- Apenas texto de entrada/saída de texto - API de conclusão de bate-papo - Streaming - Chamadas de função - Resultados estruturados - Raciocínio - Disponível para implantação1 e via computação gerenciada |
131,072 | 131,072 | 31 de maio de 2024 |
gpt-oss-20b (Pré-visualização) |
- Apenas texto de entrada/saída de texto - API de conclusão de bate-papo - Streaming - Chamadas de função - Resultados estruturados - Raciocínio - Disponível via computação gerenciada e Foundry Local |
131,072 | 131,072 | 31 de maio de 2024 |
1 Ao contrário de outros modelos gpt-oss-120b Azure, OpenAI requer um projeto Foundry para implementar o modelo.
Implantar com código
az cognitiveservices account deployment create \
--name "Foundry-project-resource" \
--resource-group "test-rg" \
--deployment-name "gpt-oss-120b" \
--model-name "gpt-oss-120b" \
--model-version "1" \
--model-format "OpenAI-OSS" \
--sku-capacity 10 \
--sku-name "GlobalStandard"
Série GPT-4.1
Disponibilidade da região
| Modelo | Região |
|---|---|
gpt-4.1 (2025-04-14) |
Consulte a tabela de modelos. |
gpt-4.1-nano (2025-04-14) |
Consulte a tabela de modelos. |
gpt-4.1-mini (2025-04-14) |
Consulte a tabela de modelos. |
Capabilities
Importante
Um problema conhecido está a afetar todos os modelos da série GPT 4.1. Grandes definições de chamada de ferramenta ou função que excedam 300.000 tokens resultarão em falhas, mesmo que o limite de contexto de 1 milhão de tokens dos modelos não tenha sido atingido.
Os erros podem variar com base na chamada de API e nas características de carga subjacente.
Aqui estão as mensagens de erro para a API de conclusão de bate-papo:
Error code: 400 - {'error': {'message': "This model's maximum context length is 300000 tokens. However, your messages resulted in 350564 tokens (100 in the messages, 350464 in the functions). Please reduce the length of the messages or functions.", 'type': 'invalid_request_error', 'param': 'messages', 'code': 'context_length_exceeded'}}Error code: 400 - {'error': {'message': "Invalid 'tools[0].function.description': string too long. Expected a string with maximum length 1048576, but got a string with length 2778531 instead.", 'type': 'invalid_request_error', 'param': 'tools[0].function.description', 'code': 'string_above_max_length'}}
Aqui está a mensagem de erro para a API de respostas:
Error code: 500 - {'error': {'message': 'The server had an error processing your request. Sorry about that! You can retry your request, or contact us through an Azure support request at: https://go.microsoft.com/fwlink/?linkid=2213926 if you keep seeing this error. (Please include the request ID d2008353-291d-428f-adc1-defb5d9fb109 in your email.)', 'type': 'server_error', 'param': None, 'code': None}}
| ID do modelo | Description | Janela de contexto | Tokens de saída máxima | Dados de formação (até) |
|---|---|---|---|---|
gpt-4.1 (2025-04-14) |
- Entrada de texto e imagem - Saída de texto - API de completões de chat - API de Respostas - Streaming - Chamadas de função - Saídas estruturadas (conclusão de chat) |
- 1,047,576 - 128.000 (implantações gerenciadas provisionadas) - 300.000 (implantações em lote) |
32,768 | 31 de maio de 2024 |
gpt-4.1-nano (2025-04-14) |
- Entrada de texto e imagem - Saída de texto - API de completões de chat - API de Respostas - Streaming - Chamadas de função - Saídas estruturadas (conclusão de chat) |
- 1,047,576 - 128.000 (implantações gerenciadas provisionadas) - 300.000 (implantações em lote) |
32,768 | 31 de maio de 2024 |
gpt-4.1-mini (2025-04-14) |
- Entrada de texto e imagem - Saída de texto - API de completões de chat - API de Respostas - Streaming - Chamadas de função - Saídas estruturadas (conclusão de chat) |
- 1,047,576 - 128.000 (implantações gerenciadas provisionadas) - 300.000 (implantações em lote) |
32,768 | 31 de maio de 2024 |
computer-use-preview
Um modelo experimental treinado para uso com a ferramenta Responses API de uso informático.
Ele pode ser usado com bibliotecas de terceiros para permitir que o modelo controle a entrada de mouse e teclado, enquanto obtém contexto a partir de capturas de tela do ambiente atual.
Atenção
Não recomendamos o uso de modelos de visualização em produção. Atualizaremos todas as implantações de modelos de visualização para versões de visualização futuras ou para a versão estável e geralmente disponível mais recente. Os modelos designados como visualização não seguem o ciclo de vida padrão do modelo OpenAI do Azure.
É necessário registar-se para aceder computer-use-previewao . O acesso é concedido com base nos critérios de elegibilidade da Microsoft. Os clientes que têm acesso a outros modelos de acesso limitado ainda precisam solicitar acesso para esse modelo.
Para solicitar acesso, vá para aplicativo modelo decomputer-use-preview acesso limitado. Quando o acesso é concedido, você precisa criar uma implantação para o modelo.
Disponibilidade da região
| Modelo | Região |
|---|---|
computer-use-preview |
Consulte a tabela de modelos. |
Capabilities
| ID do modelo | Description | Janela de contexto | Tokens de saída máxima | Dados de formação (até) |
|---|---|---|---|---|
computer-use-preview (2025-03-11) |
Modelo especializado para uso com a ferramenta API Responses para uso de computador - Ferramentas - Streaming - Texto (entrada/saída) - Imagem (entrada) |
8,192 | 1,024 | Outubro de 2023 |
Modelos da série O
Os modelos da série O Azure OpenAI foram concebidos para lidar com tarefas de raciocínio e resolução de problemas com maior foco e capacidade. Esses modelos gastam mais tempo processando e entendendo a solicitação do usuário, tornando-os excepcionalmente fortes em áreas como ciência, codificação e matemática, em comparação com iterações anteriores.
| ID do modelo | Description | Pedido Máximo (tokens) | Dados de formação (até) |
|---|---|---|---|
codex-mini (2025-05-16) |
Versão ajustada do o4-mini. - API de respostas. - Resultados estruturados. - Processamento de texto e imagem. - Funções e ferramentas. Resumo completo das capacidades. |
Entrada: 200 000 Saída: 100 000 |
31 de maio de 2024 |
o3-pro (2025-06-10) |
-
API de respostas. - Resultados estruturados. - Processamento de texto e imagem. - Funções e ferramentas. Resumo completo das capacidades. |
Entrada: 200 000 Saída: 100 000 |
31 de maio de 2024 |
o4-mini (2025-04-16) |
-
Novo modelo de raciocínio, oferecendo capacidades de raciocínio melhoradas. - API de conclusão de chat. - API de respostas. - Resultados estruturados. - Processamento de texto e imagem. - Funções e ferramentas. Resumo completo das capacidades. |
Entrada: 200 000 Saída: 100 000 |
31 de maio de 2024 |
o3 (2025-04-16) |
-
Novo modelo de raciocínio, oferecendo capacidades de raciocínio melhoradas. - API de conclusão de chat. - API de respostas. - Resultados estruturados. - Processamento de texto e imagem. - Funções, ferramentas e chamadas paralelas. Resumo completo das capacidades. |
Entrada: 200 000 Saída: 100 000 |
31 de maio de 2024 |
o3-mini (2025-01-31) |
-
Capacidades de raciocínio melhoradas. - Resultados estruturados. - Processamento somente texto. - Funções e ferramentas. |
Entrada: 200 000 Saída: 100 000 |
Outubro de 2023 |
o1 (2024-12-17) |
-
Capacidades de raciocínio melhoradas. - Resultados estruturados. - Processamento de texto e imagem. - Funções e ferramentas. |
Entrada: 200 000 Saída: 100 000 |
Outubro de 2023 |
o1-preview (2024-09-12) |
Versão de pré-visualização mais antiga. | Entrada: 128.000 Potência: 32.768 |
Outubro de 2023 |
o1-mini (2024-09-12) |
Uma opção mais rápida e económica na série o1, ideal para tarefas de codificação que exigem velocidade e menor consumo de recursos. - Implantação de padrão global disponível por padrão. - Atualmente, as implantações padrão (regionais) estão disponíveis apenas para clientes selecionados que receberam acesso como parte da versão de o1-preview acesso limitado. |
Entrada: 128.000 Saída: 65.536 |
Outubro de 2023 |
Para saber mais sobre modelos avançados da série o, consulte Introdução aos modelos de raciocínio.
Disponibilidade da região
| Modelo | Região |
|---|---|
codex-mini |
Leste US2 & Suécia Central (Padrão Global). |
o3-pro |
Leste US2 & Suécia Central (Padrão Global). |
o4-mini |
Consulte a tabela de modelos. |
o3 |
Consulte a tabela de modelos. |
o3-mini |
Consulte a tabela de modelos. |
o1 |
Consulte a tabela de modelos. |
o1-preview |
Consulte a tabela de modelos. Este modelo está disponível apenas para clientes aos quais foi concedido acesso como parte do acesso limitado original. |
o1-mini |
Consulte a tabela de modelos. |
GPT-4o e GPT-4 Turbo
O GPT-4o integra texto e imagens em um único modelo, o que permite lidar com vários tipos de dados simultaneamente. Esta abordagem multimodal aumenta a precisão e a capacidade de resposta nas interações homem-computador. O GPT-4o combina com o GPT-4 Turbo em tarefas de texto e codificação em inglês, oferecendo um desempenho superior em tarefas de linguagem não inglesa e tarefas de visão, estabelecendo novos padrões de referência para os recursos de IA.
Modelos GPT-4 e GPT-4 Turbo
Esses modelos podem ser usados somente com a API de conclusão de bate-papo.
Consulte Versões de modelo para saber como o Azure OpenAI lida com atualizações de versão de modelo. Consulte Trabalhando com modelos para saber como exibir e definir as configurações de versão do modelo de suas implantações GPT-4.
| ID do modelo | Description | Pedido Máximo (tokens) | Dados de formação (até) |
|---|---|---|---|
gpt-4o (2024-11-20) GPT-4o (Omni) |
- Resultados estruturados. - Processamento de texto e imagem. - Modo JSON. - Chamada de função paralela. - Maior precisão e capacidade de resposta. - Paridade com texto em inglês e tarefas de codificação em comparação com GPT-4 Turbo com Vision. - Desempenho superior em idiomas diferentes do inglês e em tarefas de visão. - Maior capacidade de escrita criativa. |
Entrada: 128.000 Potência: 16.384 |
Outubro de 2023 |
gpt-4o (2024-08-06) GPT-4o (Omni) |
- Resultados estruturados. - Processamento de texto e imagem. - Modo JSON. - Chamada de função paralela. - Maior precisão e capacidade de resposta. - Paridade com texto em inglês e tarefas de codificação em comparação com GPT-4 Turbo com Vision. - Desempenho superior em idiomas diferentes do inglês e em tarefas de visão. |
Entrada: 128.000 Potência: 16.384 |
Outubro de 2023 |
gpt-4o-mini (2024-07-18) GPT-4o mini | |
- Modelo rápido, barato e capaz, ideal para substituir os modelos da série GPT-3.5 Turbo. - Processamento de texto e imagem. - Modo JSON. - Chamada de função paralela. |
Entrada: 128.000 Potência: 16.384 |
Outubro de 2023 |
gpt-4o (2024-05-13) GPT-4o (Omni) |
- Processamento de texto e imagem. - Modo JSON. - Chamada de função paralela. - Maior precisão e capacidade de resposta. - Paridade com texto em inglês e tarefas de codificação em comparação com GPT-4 Turbo com Vision. - Desempenho superior em idiomas diferentes do inglês e em tarefas de visão. |
Entrada: 128.000 Saída: 4,096 |
Outubro de 2023 |
gpt-4 (turbo-2024-04-09) GPT-4 Turbo com Visão |
Novo modelo disponível em geral. - Substituição de todos os modelos anteriores de pré-visualização GPT-4 ( vision-preview, 1106-Preview, 0125-Preview). - Atualmente , a disponibilidade de recursos é diferente, dependendo do método de entrada e do tipo de implantação. |
Entrada: 128.000 Saída: 4,096 |
Dezembro de 2023 |
Atenção
Não recomendamos que você use modelos de visualização na produção. Atualizaremos todas as implantações de modelos de visualização para versões de visualização futuras ou para a versão estável e geralmente disponível mais recente. Os modelos designados como visualização não seguem o ciclo de vida padrão do modelo OpenAI do Azure.
GPT-3.5
Os modelos GPT-3.5 podem compreender e gerar linguagem natural ou código. O modelo mais capaz e econômico da família GPT-3.5 é o GPT-3.5 Turbo, que é otimizado para bate-papo e também funciona bem para tarefas de conclusão tradicionais. O GPT-3.5 Turbo está disponível para uso com a API de Conclusão de Chat. O GPT-3.5 Turbo Instruct tem recursos semelhantes aos text-davinci-003 de quando você usa a API de Conclusão em vez da API de Conclusão de Chat. Recomendamos o uso do GPT-3.5 Turbo e GPT-3.5 Turbo Instruct sobre os modelos legados GPT-3.5 e GPT-3.
| ID do modelo | Description | Pedido Máximo (tokens) | Dados de formação (até) |
|---|---|---|---|
gpt-35-turbo (0125) novo |
- Modo JSON. - Chamada de função paralela. - Produção reprodutível (pré-visualização). - Maior precisão quando responde nos formatos solicitados. - Inclui uma correção para um bug que causou um problema de codificação de texto para chamadas de função de idioma diferente do inglês. |
Entrada: 16.385 Saída: 4,096 |
Setembro 2021 |
gpt-35-turbo (1106) |
Modelo mais antigo geralmente disponível. - Modo JSON. - Chamada de função paralela. - Produção reprodutível (pré-visualização). |
Entrada: 16.385 Saída: 4,096 |
Setembro 2021 |
gpt-35-turbo-instruct (0914) |
Somente ponto de extremidade de conclusão. - Substituição de modelos de acabamentos legados. |
4,097 | Setembro 2021 |
Para saber mais sobre como interagir com o GPT-3.5 Turbo e a API de conclusão de bate-papo, confira nosso artigo detalhado de instruções.
Incorporações
text-embedding-3-large é o modelo de incorporação mais recente e mais capaz. Não é possível atualizar entre modelos de incorporação. Para passar do uso text-embedding-ada-002 para o text-embedding-3-large, você precisa gerar novas incorporações.
text-embedding-3-largetext-embedding-3-smalltext-embedding-ada-002
A OpenAI relata que os testes mostram que tanto os modelos de incorporação de terceira geração grandes quanto os pequenos oferecem melhor desempenho médio de recuperação multilíngüe com o benchmark MIRACL . Eles ainda mantêm o desempenho para tarefas em inglês com o benchmark MTEB .
| Parâmetro de referência da avaliação | text-embedding-ada-002 |
text-embedding-3-small |
text-embedding-3-large |
|---|---|---|---|
| Média MIRACL | 31.4 | 44.0 | 54.9 |
| média de MTEB | 61.0 | 62.3 | 64.6 |
Os modelos de incorporação de terceira geração suportam a redução do tamanho da incorporação através de um novo dimensions parâmetro. Normalmente, incorporações maiores são mais caras do ponto de vista de computação, memória e armazenamento. Quando você pode ajustar o número de dimensões, ganha mais controle sobre o custo geral e o desempenho. O dimensions parâmetro não é suportado em todas as versões da biblioteca OpenAI 1.x Python. Para aproveitar esse parâmetro, recomendamos que você atualize para a versão mais recente: pip install openai --upgrade.
O teste de benchmark MTEB da OpenAI descobriu que, mesmo quando as dimensões do modelo de terceira geração são reduzidas para menos do que as 1.536 dimensões do text-embeddings-ada-002, o desempenho permanece ligeiramente melhor.
Modelos de geração de imagem
Os modelos de geração de imagem geram imagens a partir de prompts de texto que o usuário fornece. Os modelos da série GPT-image-1 estão em pré-visualização de acesso limitado. O DALL-E 3 está geralmente disponível para uso com as APIs REST. DALL-E 2 e DALL-E 3 com SDKs para clientes estão em pré-visualização.
É necessário registro para aceder gpt-image-1, gpt-image-1-mini ou gpt-image-1.5. O acesso é concedido com base nos critérios de elegibilidade da Microsoft. Os clientes que têm acesso a outros modelos de acesso limitado ainda precisam solicitar acesso para esse modelo.
Para solicitar acesso, preencha um formulário de candidatura: Candidatar-se ao acesso GPT-image-1; Candidate-se ao acesso GPT-image-1.5. Quando o acesso é concedido, você precisa criar uma implantação para o modelo.
Disponibilidade da região
| Modelo | Região |
|---|---|
dall-e-3 |
E.U.A. Leste Leste da Austrália Suécia Central |
gpt-image-1 |
Oeste dos EUA 3 (Padrão Global) East US 2 (Padrão Global) Norte dos Emirados Árabes Unidos (Padrão Global) Polónia Central (Norma Global) Suécia Central (Padrão Global) |
gpt-image-1-mini |
Oeste dos EUA 3 (Padrão Global) East US 2 (Padrão Global) Norte dos Emirados Árabes Unidos (Padrão Global) Polónia Central (Norma Global) Suécia Central (Padrão Global) |
gpt-image-1.5 |
Oeste dos EUA 3 (Padrão Global) East US 2 (Padrão Global) Norte dos Emirados Árabes Unidos (Padrão Global) Polónia Central (Norma Global) Suécia Central (Padrão Global) |
Modelos de geração de vídeo
Sora é um modelo de IA da OpenAI que pode criar cenas de vídeo realistas e imaginativas a partir de instruções de texto. Sora está em pré-visualização.
Disponibilidade da região
| Modelo | Região |
|---|---|
sora |
Leste dos EUA 2 (Padrão Global) Suécia Central (Padrão Global) |
sora-2 |
Leste dos EUA 2 (Padrão Global) Suécia Central (Padrão Global) |
Modelos de áudio
Os modelos de áudio no Azure OpenAI estão disponíveis através das realtimeAPIs , completionse audio .
Modelos de áudio GPT-4o
Os modelos de áudio GPT-4o fazem parte da família de modelos GPT-4o e suportam interações conversacionais de baixa latência, entrada de fala, saída de fala ou geração de áudio.
Atenção
Não recomendamos o uso de modelos de visualização em produção. Atualizaremos todas as implantações de modelos de visualização para versões de visualização futuras ou para a versão estável e geralmente disponível mais recente. Os modelos designados como visualização não seguem o ciclo de vida padrão do modelo OpenAI do Azure.
Detalhes sobre tokens de solicitação máxima e dados de treinamento estão disponíveis na tabela a seguir:
| ID do modelo | Description | Pedido Máximo (tokens) | Dados de formação (até) |
|---|---|---|---|
gpt-4o-mini-audio-preview (2024-12-17) Áudio GPT-4o |
Modelo de áudio para geração de áudio e texto. | Entrada: 128.000 Potência: 16.384 |
Setembro de 2023 |
gpt-4o-audio-preview (2024-12-17) Áudio GPT-4o |
Modelo de áudio para geração de áudio e texto. | Entrada: 128.000 Potência: 16.384 |
Setembro de 2023 |
gpt-4o-realtime-preview (2025-06-03) Áudio GPT-4o |
Modelo de áudio para processamento de áudio em tempo real. | Entrada: 128.000 Saída: 4,096 |
Outubro de 2023 |
gpt-4o-realtime-preview (2024-12-17) Áudio GPT-4o |
Modelo de áudio para processamento de áudio em tempo real. | Entrada: 128.000 Saída: 4,096 |
Outubro de 2023 |
gpt-4o-mini-realtime-preview (2024-12-17) Áudio GPT-4o |
Modelo de áudio para processamento de áudio em tempo real. | Entrada: 128.000 Saída: 4,096 |
Outubro de 2023 |
gpt-realtime (2025-08-28) (GA)gpt-realtime-mini (2025-10-06)gpt-realtime-mini-2025-12-15 (2025-12-15) gpt-audio(2025-08-28)gpt-audio-mini(06-10-2025) |
Modelo de áudio para processamento de áudio em tempo real. | Entrada: 28.672 Saída: 4,096 |
Outubro de 2023 |
Para comparar a disponibilidade de modelos de áudio GPT-4o em todas as regiões, consulte a tabela de modelos.
API de áudio
Os modelos de áudio por meio da /audio API podem ser usados para conversão de fala em texto, tradução e conversão de texto em fala.
Modelos de fala para texto
| ID do modelo | Description | Max solicitação (tamanho do arquivo de áudio) |
|---|---|---|
whisper |
Modelo de reconhecimento de fala de uso geral. | 25 MB |
gpt-4o-transcribe |
Modelo de fala para texto alimentado por GPT-4o. | 25 MB |
gpt-4o-mini-transcribe |
Modelo de fala para texto alimentado por GPT-4o mini. | 25 MB |
gpt-4o-transcribe-diarize |
Modelo de fala para texto com reconhecimento automático de fala. | 25 MB |
gpt-4o-mini-transcribe-2025-12-15 |
Modelo de fala para texto com reconhecimento automático de fala. Melhoria da precisão e robustez da transcrição. | 25 MB |
Modelos de tradução de fala
| ID do modelo | Description | Max solicitação (tamanho do arquivo de áudio) |
|---|---|---|
whisper |
Modelo de reconhecimento de fala de uso geral. | 25 MB |
Modelos de conversão de texto em fala (visualização)
| ID do modelo | Description |
|---|---|
tts |
Modelo de conversão de texto em fala otimizado para velocidade. |
tts-hd |
Modelo text-to-speech otimizado para qualidade. |
gpt-4o-mini-tts |
Modelo text-to-speech alimentado por GPT-4o mini. Você pode guiar a voz para falar em um estilo ou tom específico. |
gpt-4o-mini-tts-2025-12-15 |
Modelo text-to-speech alimentado por GPT-4o mini. Você pode guiar a voz para falar em um estilo ou tom específico. |
Para obter mais informações, consulte Disponibilidade da região de modelos de áudio mais adiante neste artigo.
Tabela de resumo do modelo e disponibilidade da região
Modelos por tipo de implantação
O Azure OpenAI oferece aos clientes opções sobre a estrutura de hospedagem que se adapta aos seus padrões de negócios e uso. O serviço oferece dois tipos principais de implantação:
- Padrão: Tem uma opção de implantação global, roteando o tráfego globalmente para fornecer maior taxa de transferência.
- Provisionado: também tem uma opção de implantação global, permitindo que os clientes comprem e implantem unidades de taxa de transferência provisionadas na infraestrutura global do Azure.
Todas as implantações podem executar exatamente as mesmas operações de inferência, mas o faturamento, a escala e o desempenho são substancialmente diferentes. Para saber mais sobre os tipos de implantação do Azure OpenAI, consulte nosso Guia de tipos de implantação.
- Padrão Global
- Provisionado Global gerenciado
- Lote Global
- Padrão de zona de dados
- Zona de dados provisionada gerenciada
- Lote de zona de dados
- Standard
- Provisionado gerenciado
Disponibilidade do modelo Padrão Global
| Região | GPT-5.2, 2025-12-11 | gpt-5.2-chat, 2025-12-11 | GPT-5.1, 13-11-2025 | gpt-5.1-chat, 2025-11-13 | gpt-5.1-codex, 2025-11-13 | gpt-5.1-códice-mini, 2025-11-13 | GPT-5-PRO, 2025-10-06 | GPT-5, 2025-08-07 | GPT-5-Mini, 2025-08-07 | GPT-5-nano, 2025-08-07 | gpt-5-chat, 2025-08-07 | gpt-5-chat, 2025-10-03 | O3-PRO, 2025-06-10 | códice-mini, 2025-05-16 | Sora, 2025-05-02 | modelo-router, 2025-08-07 | modelo-router, 2025-05-19 | model-router, 2025-11-18 | O3, 2025-04-16 | O4-MINI, 2025-04-16 | gpt-imagem-1, 2025-04-15 | GPT-4.1, 14-04-2025 | GPT-4.1-NANO, 2025-04-14 | GPT-4.1-Mini, 2025-04-14 | pré-visualização de uso do computador, 2025-03-11 | O3-Mini, 2025-01-31 | o1, 2024-12-17 | O1-Mini, 2024-09-12 | GPT-4O, 2024-05-13 | GPT-4O, 2024-08-06 | GPT-4O, 2024-11-20 | GPT-4O-Mini, 2024-07-18 | incorporação de texto-3-pequeno, 1 | incorporação de texto-3-grande, 1 | incorporação de textos-ada-002, 2 | gpt-4o-visualização em tempo real, 2024-12-17 | gpt-4o-visualização em tempo real, 2025-06-03 | gpt-4o-áudio-prévia, 2024-12-17 | gpt-4o-mini-visualização em tempo real, 2024-12-17 | gpt-4o-mini-áudio-pré-visualização, 2024-12-17 | gpt-4o-transcrição, 2025-03-20 | GPT-4O-Mini-TTS, 2025-03-20 | gpt-4o-mini-transcrição, 2025-03-20 | GPT-5-códice, 2025-09-15 | gpt-tempo real, 2025-08-28 | GPT-AUDIO-MINI, 06-10-2025 | gpt-imagem-1-mini, 2025-10-06 | gpt-realtime-mini, 2025-10-06 | gpt-áudio, 2025-08-28 | SORA-2, 2025-10-06 | O3-Investigação aprofundada, 2025-06-26 | gpt-4o-transcribe-diarize, 2025-10-15 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| leste da Austrália | - | - | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
| Brasil Sul | - | - | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
| CanadáCentral | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | ✅ | - | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
| Canadá Leste | - | - | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
| Centralus | - | - | - | - | - | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | - | - | - |
| Eastus | - | - | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | ✅ | - | - | - | - | - | - | - | - | - | - | - | - |
| Eastus2 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | ✅ |
| FranceCentral | - | - | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
| Alemanha Oeste Central | - | - | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
| ItáliaNorte | - | - | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | - | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
| JapãoLeste | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | ||
| Coreia Central | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | ||
| northcentralus | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | ||
| Noruega Oriental | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | ✅ | - | ||
| Polónia Central | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | ✅ | - | - | - | - | - | ||
| southafricanorth | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | ||
| southcentralus | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | ||
| southeastasia | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | - | - | - | - | ✅ | - | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | ||
| Sul da Índia | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | ||
| spaincentral | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | ||
| suécia central | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | ✅ | ||
| suíçanorte | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | ||
| switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | ✅ | - | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | ||
| uaenorth | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | ✅ | - | - | - | - | - | ||
| UKSOUTH | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | ||
| Europa Ocidental | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | ||
| Westus | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | - | ✅ | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | ✅ | - | ||
| Westus3 | - | - | - | - | - | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - | - | - | - | - | - | - | - | ✅ | - | - | - | - | - |
Observação
o3-deep-research atualmente está disponível apenas com o Foundry Agent Service. Para saber mais, consulte as orientações da ferramenta Deep Research.
Esta tabela não inclui informações ajustadas de disponibilidade regional. Consulte a secção de afinação fina para obter estas informações.
Modelos de implantação padrão (regionais) por ponto de extremidade
Finalizações de chat
| Região | o1-pré-visualização, 2024-09-12 | O1-Mini, 2024-09-12 | GPT-4O, 2024-05-13 | GPT-4O, 2024-11-20 | GPT-4O, 2024-08-06 | GPT-4O-Mini, 2024-07-18 | GPT-4, turbo-2024-04-09 | GPT-35-Turbo, 1106 | GPT-35-Turbo, 0125 |
|---|---|---|---|---|---|---|---|---|---|
| leste da Austrália | - | - | - | ✅ | - | - | - | ✅ | ✅ |
| Canadá Leste | - | - | - | ✅ | - | - | - | ✅ | ✅ |
| Eastus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | ✅ |
| Eastus2 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | ✅ |
| FranceCentral | - | - | - | ✅ | - | - | - | ✅ | ✅ |
| JapãoLeste | - | - | - | ✅ | - | - | - | - | ✅ |
| northcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | ✅ |
| Noruega Oriental | - | - | - | ✅ | - | - | - | - | - |
| southcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | ✅ |
| Sul da Índia | - | - | - | ✅ | - | - | - | ✅ | ✅ |
| suécia central | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| suíçanorte | - | - | - | ✅ | - | - | - | - | ✅ |
| UKSOUTH | - | - | - | ✅ | - | - | - | ✅ | ✅ |
| Europa Ocidental | - | - | - | - | - | - | - | - | ✅ |
| Westus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Westus3 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | ✅ |
Observação
o1-mini está atualmente disponível para todos os clientes para implantação do Padrão Global.
Alguns clientes receberam acesso de implantação padrão (regional) a o1-mini como parte de o1-preview a versão de acesso limitado. No momento, o acesso a o1-mini implantações padrão (regionais) não está sendo expandido.
Para saber como o Azure OpenAI lida com atualizações de versão de modelo, consulte Versões de modelo. Para saber como visualizar e configurar as configurações de versão do modelo de suas implantações GPT-3.5 Turbo, consulte Trabalhando com modelos.
Modelos de afinação fina
Observação
As regiões suportadas para ajuste fino podem variar se usar modelos Azure OpenAI num projeto Microsoft Foundry ou fora de um projeto.
| ID do modelo | Regiões padrão | Global | Desenvolvedor | Pedido Máximo (tokens) | Dados de formação (até) | Modality |
|---|---|---|---|---|---|---|
gpt-4o-mini (2024-07-18) |
Centro-Norte dos EUA Suécia Central |
✅ | ✅ | Entrada: 128.000 Potência: 16.384 Duração do contexto do exemplo de treinamento: 65.536 |
Outubro de 2023 | Texto para texto |
gpt-4o (2024-08-06) |
Leste EUA2 Centro-Norte dos EUA Suécia Central |
✅ | ✅ | Entrada: 128.000 Potência: 16.384 Duração do contexto do exemplo de treinamento: 65.536 |
Outubro de 2023 | Texto e visão para texto |
gpt-4.1 (2025-04-14) |
Centro-Norte dos EUA Suécia Central |
✅ | ✅ | Entrada: 128.000 Potência: 16.384 Duração do contexto do exemplo de treinamento: 65.536 |
maio de 2024 | Texto e visão para texto |
gpt-4.1-mini (2025-04-14) |
Centro-Norte dos EUA Suécia Central |
✅ | ✅ | Entrada: 128.000 Potência: 16.384 Duração do contexto do exemplo de treinamento: 65.536 |
maio de 2024 | Texto para texto |
gpt-4.1-nano (2025-04-14) |
Centro-Norte dos EUA Suécia Central |
✅ | ✅ | Entrada: 128.000 Potência: 16.384 Duração do contexto do exemplo de treinamento: 32.768 |
maio de 2024 | Texto para texto |
o4-mini (2025-04-16) |
Leste EUA2 Suécia Central |
✅ | ❌ | Entrada: 128.000 Potência: 16.384 Duração do contexto do exemplo de treinamento: 65.536 |
maio de 2024 | Texto para texto |
Ministral-3B (pré-visualização) (2411) |
Não suportado | ✅ | ❌ | Entrada: 128.000 Saída: Desconhecida Exemplo de contexto de treino Duração: Desconhecido |
Desconhecido | Texto para texto |
Qwen-32B (pré-visualização) |
Não suportado | ✅ | ❌ | Entrada: 8.000 Produção: 32.000 Comprimento do exemplo de contexto de treinamento: 8192 |
Julho de 2024 | Texto para texto |
Observação
O treinamento global oferece treinamento mais acessível por token, mas não oferece residência de dados. Está atualmente disponível para recursos da Foundry nas seguintes regiões:
- Leste da Austrália
- Sul do Brasil
- Canadá Central
- Leste do Canadá
- E.U.A. Leste
- Leste dos EUA2
- Centro de França
- Alemanha Centro-Oeste
- Norte de Itália
- Leste do Japão (sem suporte à visão)
- Coreia Central
- E.U.A. Centro-Norte
- Leste da Noruega
- Polónia Central (sem suporte 4.1-nano)
- Sudeste Asiático
- Norte da África do Sul
- E.U.A. Centro-Sul
- Sul da Índia
- Espanha Central
- Suécia Central
- Oeste da Suíça
- Norte da Suíça
- Sul do Reino Unido
- Europa Ocidental
- E.U.A. Oeste
- Oeste dos EUA3
Assistentes (pré-visualização)
Para assistentes, você precisa de uma combinação de um modelo suportado e uma região suportada. Certas ferramentas e capacidades requerem os modelos mais recentes. Os seguintes modelos estão disponíveis na API, SDK e Foundry dos Assistentes. A tabela a seguir é para implantação padrão. Para obter informações sobre a disponibilidade da unidade de taxa de transferência provisionada, consulte Taxa de transferência provisionada. Os modelos e regiões listados podem ser usados com os Assistentes v1 e v2. Você pode usar modelos Padrão Global se eles forem suportados nas seguintes regiões.
| Região | GPT-4O, 2024-05-13 | GPT-4O, 2024-08-06 | GPT-4O-Mini, 2024-07-18 | GPT-4, 0613 | gpt-4, 1106-Pré-visualização | gpt-4, 0125-Pré-visualização | GPT-4, turbo-2024-04-09 | GPT-4-32K, 0613 | GPT-35-TURBO, 0613 | GPT-35-Turbo, 1106 | GPT-35-Turbo, 0125 | GPT-35-TURBO-16K, 0613 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| leste da Austrália | - | - | - | ✅ | ✅ | - | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Eastus | ✅ | ✅ | ✅ | - | - | ✅ | ✅ | - | ✅ | - | ✅ | ✅ |
| Eastus2 | ✅ | ✅ | ✅ | - | ✅ | - | ✅ | - | ✅ | - | ✅ | ✅ |
| FranceCentral | - | - | - | ✅ | ✅ | - | - | ✅ | ✅ | ✅ | - | ✅ |
| JapãoLeste | - | - | - | - | - | - | - | - | ✅ | - | ✅ | ✅ |
| Noruega Oriental | - | - | - | - | ✅ | - | - | - | - | - | - | - |
| Sul da Índia | - | - | - | - | ✅ | - | - | - | - | ✅ | ✅ | - |
| suécia central | ✅ | ✅ | ✅ | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | - | ✅ |
| UKSOUTH | - | - | - | - | ✅ | ✅ | - | - | ✅ | ✅ | ✅ | ✅ |
| Westus | ✅ | ✅ | ✅ | - | ✅ | - | ✅ | - | - | ✅ | ✅ | - |
| Westus3 | ✅ | ✅ | ✅ | - | ✅ | - | ✅ | - | - | - | ✅ | - |
Modelo de aposentadoria
Para obter as informações mais recentes sobre modelos de aposentadoria, consulte o guia de aposentadoria modelo.
Conteúdo relacionado
Observação
Os modelos Foundry vendidos diretamente pelo Azure também incluem todos os modelos Azure OpenAI. Para saber mais sobre esses modelos, alterne para a coleção de modelos do Azure OpenAI na parte superior deste artigo.
Modelos do Black Forest Labs vendidos diretamente pelo Azure
A coleção de modelos de geração de imagens da Black Forest Labs (BFL) inclui o FLUX.2 [pro] para geração e edição de imagens através de texto e prompts de imagem, o FLUX.1 Kontext [pro] para geração e edição em contexto, e o FLUX1.1 [pro] para geração texto-para-imagem.
Você pode processar esses modelos por meio da API do provedor de serviços BFL e por meio dos endpoints imagens/gerações e imagens/edições.
| Modelo | Digite o ponto de extremidade da API & | Capabilities | Tipo de implantação (disponibilidade da região) | Tipo de projeto |
|---|---|---|---|---|
| FLUX.2-pro |
Geração de imagens - API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-2-pro |
-
Entrada: texto e imagem (32.000 tokens e até 8 imagensi) - Saída: Uma imagem - Chamada de ferramenta: Não - Formatos de resposta: Imagem (PNG e JPG) - Características principais: Suporte multirreferência para até 8 imagensii; mais fundamentado no conhecimento do mundo real; maior flexibilidade de saída; Desempenho melhorado - Parâmetros adicionais:(Apenas na API específica do fornecedor) Suporta todos os parâmetros. |
- Norma global (todas as regiões) | Fundição baseada em hub |
| FLUX.1-Kontext-pro |
Geração de imagens - API de imagem: https://<resource-name>/openai/deployments/{deployment-id}/images/generations e https://<resource-name>/openai/deployments/{deployment-id}/images/edits - API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-kontext-pro?api-version=preview |
-
Entrada: texto e imagem (5.000 tokens e 1 imagem) - Saída: Uma imagem - Chamada de ferramenta: Não - Formatos de resposta: Imagem (PNG e JPG) - Principais características: Consistência de caracteres, edição avançada - Parâmetros adicionais:(Somente na API específica do provedor) seed, aspect ratio, input_image, prompt_unsampling, safety_tolerance, , output_format |
- Norma global (todas as regiões) | Fundição baseada em hub |
| FLUXO-1.1-pro |
Geração de imagens - API de imagem: https://<resource-name>/openai/deployments/{deployment-id}/images/generations - API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-pro-1.1?api-version=preview |
-
Entrada: texto (5.000 tokens e 1 imagem) - Saída: Uma imagem - Chamada de ferramenta: Não - Formatos de resposta: Imagem (PNG e JPG) - Principais características: Velocidade de inferência rápida, forte adesão imediata, preços competitivos, geração escalável - Parâmetros adicionais:(Somente na API específica do provedor) width, height, prompt_unsampling, seed, safety_tolerance, , output_format |
- Norma global (todas as regiões) | Fundição baseada em hub |
| Modelo | Digite o ponto de extremidade da API & | Capabilities | Tipo de implantação (disponibilidade da região) |
|---|---|---|---|
FLUX.2-pro |
Geração de imagens - API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-2-pro |
-
Entrada: texto (32.000 tokens e até 8imagens i) - Saída: Uma imagem - Chamada de ferramenta: Não - Formatos de resposta: Imagem (PNG e JPG) - Características principais: Suporte multirreferência para até 8 imagensii; mais fundamentado no conhecimento do mundo real; maior flexibilidade de saída; Desempenho melhorado - Parâmetros adicionais:(Apenas na API específica do fornecedor) Suporta todos os parâmetros. |
- Norma global (todas as regiões) |
FLUX.1-Kontext-pro |
Geração de imagens - API de imagem: https://<resource-name>/openai/deployments/{deployment-id}/images/generations e https://<resource-name>/openai/deployments/{deployment-id}/images/edits - API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-kontext-pro?api-version=preview |
-
Entrada: texto e imagem (5.000 tokens e 1 imagem) - Saída: Uma imagem - Chamada de ferramenta: Não - Formatos de resposta: Imagem (PNG e JPG) - Principais características: Consistência de caracteres, edição avançada - Parâmetros adicionais:(Somente na API específica do provedor) seed, aspect ratio, input_image, prompt_unsampling, safety_tolerance, , output_format |
- Norma global (todas as regiões) |
FLUX-1.1-pro |
Geração de imagens - API de imagem: https://<resource-name>/openai/deployments/{deployment-id}/images/generations - API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-pro-1.1?api-version=preview |
-
Entrada: texto (5.000 tokens e 1 imagem) - Saída: Uma imagem - Chamada de ferramenta: Não - Formatos de resposta: Imagem (PNG e JPG) - Principais características: Velocidade de inferência rápida, forte adesão imediata, preços competitivos, geração escalável - Parâmetros adicionais:(Somente na API específica do provedor) width, height, prompt_unsampling, seed, safety_tolerance, , output_format |
- Norma global (todas as regiões) |
i,ii O suporte para múltiplas imagens de referência (até oito) está disponível para o FLUX.2[pro] através da API, mas não no playground. Consulte os seguintes exemplos de código para o FLUX.2[pro].
Exemplos de código para FLUX.2[pro]
Geração de imagens
- Entrada: Texto
- Saída: Uma imagem
curl -X POST https://<your-resource-name>.api.cognitive.microsoft.com/providers/blackforestlabs/v1/flux-2-pro?api-version… \
-H "Content-Type: application/json" \
-H "Authorization: Bearer {API_KEY}" \
-d '{
"model": "FLUX.2-pro"
"prompt": "A photograph of a red fox in an autumn forest",
"width": 1024,
"height": 1024,
"seed": 42,
"safety_tolerance": 2,
"output_format": "jpeg",
}'
Edição de imagem
- Entrada: Até oito imagens codificadas em 64 bits
- Saída: Uma imagem
curl -X POST https://<your-resource-name>.api.cognitive.microsoft.com/providers/blackforestlabs/v1/flux-2-pro?api-version… \
-H "Content-Type: application/json" \
-H "Authorization: Bearer {API_KEY}" \
-d '{
"model": "FLUX.2-pro",
"prompt": "Apply a cinematic, moody lighting effect to all photos. Make them look like scenes from a sci-fi noir film",
"output_format": "jpeg",
"input_image" : "/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDA.......",
"input_image_2" : "iVBORw0KGgoAAAANSUhEUgAABAAAAAQACAIAAADwf........"
}'
Veja esta coleção de modelos no portal Microsoft Foundry.
Modelos Cohere vendidos diretamente pela Azure
A família de modelos Cohere inclui vários modelos otimizados para diferentes casos de uso, incluindo completamento de chats, reclassificação e classificação de texto, e embeddings. Os modelos Cohere são otimizados para vários casos de uso que incluem raciocínio, sumarização e resposta a perguntas.
| Modelo | Tipo | Capabilities | Tipo de implantação (disponibilidade da região) | Tipo de projeto |
|---|---|---|---|---|
| Cohere-rerank-v4.0-pro | Classificação de texto (reordenação) |
-
Entrada: texto - Saída: texto - Línguas: en, fr, es, it, de, pt-br, ja, zh-cn, ar, vi, hi, ru, id, e nl - Chamada de ferramenta: Não - Formatos de resposta: JSON |
- Norma global (todas as regiões) - Computação gerida |
Fundição baseada em hub |
| Cohere-rerank-v4.0-fast | Classificação de texto (reordenação) |
-
Entrada: texto - Saída: texto - Línguas: en, fr, es, it, de, pt-br, ja, zh-cn, ar, vi, hi, ru, id, e nl - Chamada de ferramenta: Não - Formatos de resposta: JSON |
- Norma global (todas as regiões) - Computação gerida |
Fundição baseada em hub |
| Cohere-command-a | chat-completion |
-
Entrada: texto (131.072 tokens) - Saída: texto (8.182 tokens) - Línguas: en, fr, es, it, de, pt-br, ja, ko, zh-cne ar - Ativação da ferramenta: Sim - Formatos de resposta: Texto, JSON |
- Norma global (todas as regiões) | Fundição baseada em hub |
| incorporar-v-4-0 | embeddings |
-
Entrada: texto (512 tokens) e imagens (2 milhões de pixels) - Saída: Vetor (256, 512, 1024, 1536 dimensão) - Línguas: en, fr, es, it, de, pt-br, ja, ko, zh-cne ar |
- Norma global (todas as regiões) | Fundição baseada em hub |
| Modelo | Tipo | Capabilities | Tipo de implantação (disponibilidade da região) |
|---|---|---|---|
| Cohere-rerank-v4.0-pro | Classificação de texto (reordenação) |
-
Entrada: texto - Saída: texto - Línguas: en, fr, es, it, de, pt-br, ja, zh-cn, ar, vi, hi, ru, id, e nl - Chamada de ferramenta: Não - Formatos de resposta: JSON |
- Norma global (todas as regiões) - Computação sob gestão |
| Cohere-rerank-v4.0-fast | Classificação de texto (reordenação) |
-
Entrada: texto - Saída: texto - Línguas: en, fr, es, it, de, pt-br, ja, zh-cn, ar, vi, hi, ru, id, e nl - Chamada de ferramenta: Não - Formatos de resposta: JSON |
- Norma global (todas as regiões) - Computação sob gestão |
Cohere-command-a |
chat-completion |
-
Entrada: texto (131.072 tokens) - Saída: texto (8.182 tokens) - Línguas: en, fr, es, it, de, pt-br, ja, ko, zh-cne ar - Ativação da ferramenta: Sim - Formatos de resposta: Texto, JSON |
- Norma global (todas as regiões) |
embed-v-4-0 |
embeddings |
-
Entrada: texto (512 tokens) e imagens (2 milhões de pixels) - Saída: Vetor (256, 512, 1024, 1536 dimensão) - Línguas: en, fr, es, it, de, pt-br, ja, ko, zh-cne ar |
- Norma global (todas as regiões) |
Consulte a coleção de modelos Cohere no portal Foundry.
Modelos DeepSeek vendidos diretamente pelo Azure
A família de modelos DeepSeek inclui vários modelos de raciocínio, que se destacam em tarefas de raciocínio através de um processo de treino passo a passo, como tarefas de linguagem, raciocínio científico e programação.
| Modelo | Tipo | Capabilities | Tipo de implantação (disponibilidade da região) | Tipo de projeto |
|---|---|---|---|---|
| DeepSeek-V3.2-Speciale | chat-completion (com conteúdo de fundamentação) |
-
Entrada: texto (128.000 tokens) - Saída: (128.000 tokens) - Línguas: en e zh - Chamada de ferramenta: Não - Formatos de resposta: Texto, JSON |
- Norma global (todas as regiões) | Fundição baseada em hub |
| DeepSeek-V3.2 | chat-completion (com conteúdo de fundamentação) |
-
Entrada: texto (128.000 tokens) - Saída: (128.000 tokens) - Línguas: en e zh - Chamada de ferramenta: Não - Formatos de resposta: Texto, JSON |
- Norma global (todas as regiões) | Fundição baseada em hub |
| DeepSeek-V3.1 | chat-completion (com conteúdo de fundamentação) |
-
Entrada: texto (131.072 tokens) - Saída: (131.072 tokens) - Línguas: en e zh - Ativação da ferramenta: Sim - Formatos de resposta: Texto, JSON |
- Norma global (todas as regiões) | Fundição baseada em hub |
| DeepSeek-R1-0528 | chat-completion (com conteúdo de fundamentação) |
-
Entrada: texto (163.840 tokens) - Saída: (163.840 tokens) - Línguas: en e zh - Chamada de ferramenta: Não - Formatos de resposta: Texto. |
- Norma global (todas as regiões) - Global provisionado (todas as regiões) |
Fundição baseada em hub |
| DeepSeek-V3-0324 | chat-completion |
-
Entrada: texto (131.072 tokens) - Saída: (131.072 tokens) - Línguas: en e zh - Ativação da ferramenta: Sim - Formatos de resposta: Texto, JSON |
- Norma global (todas as regiões) - Global provisionado (todas as regiões) |
Fundição baseada em hub |
| DeepSeek-R1 | chat-completion (com conteúdo de fundamentação) |
-
Entrada: texto (163.840 tokens) - Saída: (163.840 tokens) - Línguas: en e zh - Chamada de ferramenta: Não - Formatos de resposta: Texto. |
- Norma global (todas as regiões) - Global provisionado (todas as regiões) |
Fundição baseada em hub |
| Modelo | Tipo | Capabilities | Tipo de implantação (disponibilidade da região) |
|---|---|---|---|
DeepSeek-V3.2-Speciale |
chat-completion (com conteúdo de fundamentação) |
-
Entrada: texto (128.000 tokens) - Saída: (128.000 tokens) - Línguas: en e zh - Chamada de ferramenta: Não - Formatos de resposta: Texto, JSON |
- Norma global (todas as regiões) |
DeepSeek-V3.2 |
chat-completion (com conteúdo de fundamentação) |
-
Entrada: texto (128.000 tokens) - Saída: (128.000 tokens) - Línguas: en e zh - Chamada de ferramenta: Não - Formatos de resposta: Texto, JSON |
- Norma global (todas as regiões) |
DeepSeek-V3.1 |
chat-completion (com conteúdo de fundamentação) |
-
Entrada: texto (131.072 tokens) - Saída: (131.072 tokens) - Línguas: en e zh - Ativação da ferramenta: Sim - Formatos de resposta: Texto, JSON |
- Norma global (todas as regiões) |
DeepSeek-R1-0528 |
chat-completion (com conteúdo de fundamentação) |
-
Entrada: texto (163.840 tokens) - Saída: (163.840 tokens) - Línguas: en e zh - Chamada de ferramenta: Não - Formatos de resposta: Texto. |
- Norma global (todas as regiões) - Global provisionado (todas as regiões) |
DeepSeek-V3-0324 |
chat-completion |
-
Entrada: texto (131.072 tokens) - Saída: (131.072 tokens) - Línguas: en e zh - Ativação da ferramenta: Sim - Formatos de resposta: Texto, JSON |
- Norma global (todas as regiões) - Global provisionado (todas as regiões) |
DeepSeek-R1 |
chat-completion (com conteúdo de fundamentação) |
-
Entrada: texto (163.840 tokens) - Saída: (163.840 tokens) - Línguas: en e zh - Chamada de ferramenta: Não - Formatos de resposta: Texto. |
- Norma global (todas as regiões) - Global provisionado (todas as regiões) |
Veja esta coleção de modelos no portal da Foundry.
Meta modelos vendidos diretamente pelo Azure
Os modelos e ferramentas Meta Llama são uma coleção de modelos de raciocínio generativo de texto e imagem de IA pré-treinados e ajustados. Os metamodelos variam em escala para incluir:
- Modelos de linguagem reduzidos (SLMs), como os modelos Base e Instrução 1B e 3B para inferência em dispositivos e na periferia
- Modelos de linguagem de grande porte médio (LLMs) como os modelos 7B, 8B e 70B Base e Instruct
- Modelos de alto desempenho como o Meta Llama 3.1-405B Instruem para geração de dados sintéticos e casos de uso de destilação.
| Modelo | Tipo | Capabilities | Tipo de implantação (disponibilidade da região) | Tipo de projeto |
|---|---|---|---|---|
| Llama-4-Maverick-17B-128E-Instruct-FP8 | chat-completion |
-
Entrada: texto e imagens (1M tokens) - Saída: texto (1M elementos) - Línguas: ar, en, fr, de, hi, id, it, pt, es, , tlth, evi - Chamada de ferramenta: Não - Formatos de resposta: Texto |
- Norma global (todas as regiões) | Fundição baseada em hub |
| Llama-3.3-70B-Instruct | chat-completion |
-
Entrada: texto (128.000 tokens) - Saída: texto (8,192 tokens) - Línguas: en, de, fr, it, pt, hi, ese th - Chamada de ferramenta: Não - Formatos de resposta: Texto |
- Norma global (todas as regiões) | Fundição baseada em hub |
| Modelo | Tipo | Capabilities | Tipo de implantação (disponibilidade da região) |
|---|---|---|---|
Llama-4-Maverick-17B-128E-Instruct-FP8 |
chat-completion |
-
Entrada: texto e imagens (1M tokens) - Saída: texto (1M elementos) - Línguas: ar, en, fr, de, hi, id, it, pt, es, , tlth, evi - Chamada de ferramenta: Não - Formatos de resposta: Texto |
- Norma global (todas as regiões) |
Llama-3.3-70B-Instruct |
chat-completion |
-
Entrada: texto (128.000 tokens) - Saída: texto (8,192 tokens) - Línguas: en, de, fr, it, pt, hi, ese th - Chamada de ferramenta: Não - Formatos de resposta: Texto |
- Norma global (todas as regiões) |
Veja esta coleção de modelos no portal da Foundry. Você também pode encontrar vários modelos Meta disponíveis de parceiros e comunidade.
Modelos da Microsoft vendidos diretamente pelo Azure
Os modelos Microsoft incluem vários grupos de modelos, como Model Router, modelos MAI, modelos Phi, modelos de IA na saúde e outros. Consulte a coleção de modelos Microsoft no portal Foundry. Você também pode encontrar vários modelos da Microsoft disponíveis em parceiros e comunidade.
| Modelo | Tipo | Capabilities | Tipo de implantação (disponibilidade da região) | Tipo de projeto |
|---|---|---|---|---|
| model-router1 | chat-completion | Mais detalhes na visão geral do router modelo. - Entrada: texto, imagem - Saída: texto (o número máximo de tokens de saídavaria 2) Janela de contexto: 200.0003 - Idiomas: en |
- Padrão global (Leste dos EUA 2, Suécia Central) - Zona de Dados padrão4 (Leste dos EUA 2, Suécia Central) |
Fundição baseada em hub |
| MAI-DS-R1 | chat-completion (com conteúdo de fundamentação) |
-
Entrada: texto (163.840 tokens) - Saída: (163.840 tokens) - Línguas: en e zh - Chamada de ferramenta: Não - Formatos de resposta: Texto. |
- Norma global (todas as regiões) | Fundição baseada em hub |
| Modelo | Tipo | Capabilities | Tipo de implantação (disponibilidade da região) |
|---|---|---|---|
| model-router1 | chat-completion | Mais detalhes na visão geral do router modelo. - Entrada: texto, imagem - Saída: texto (o número máximo de tokens de saídavaria 2) Janela de contexto: 200.0003 - Idiomas: en |
- Padrão global (Leste dos EUA 2, Suécia Central) - Zona de Dados padrão4 (Leste dos EUA 2, Suécia Central) |
MAI-DS-R1 |
chat-completion (com conteúdo de fundamentação) |
-
Entrada: texto (163.840 tokens) - Saída: (163.840 tokens) - Línguas: en e zh - Chamada de ferramenta: Não - Formatos de resposta: Texto. |
- Norma global (todas as regiões) |
1Versão do modelo do router2025-11-18 Versões anteriores (2025-08-07 e 2025-05-19) também estão disponíveis.
2Os tokens máximos de saída variam para modelos subjacentes no roteador de modelos. Por exemplo, 32.768 (GPT-4.1 series), 100.000 (o4-mini), 128.000 (gpt-5 reasoning models) e 16.384 (gpt-5-chat).
3Janelas de contexto maiores são compatíveis com alguns dos modelos subjacentes do Model Router. Isto significa que uma chamada API com um contexto maior só tem sucesso se o prompt for encaminhado para um desses modelos. Caso contrário, a chamada falhará.
4 A faturação para a implementação de routers modelo padrão de Zona de Dados começa não antes de 1 de novembro de 2025.
Modelos Mistral vendidos diretamente pelo Azure
| Modelo | Tipo | Capabilities | Tipo de implantação (disponibilidade da região) | Tipo de projeto |
|---|---|---|---|---|
| Mistral-Grande-3 | chat-completion |
-
Entrada: texto, imagem - Saída: texto - Línguas: en, fr, de, es, it, pt, nl, zh, ja, koe ar - Ativação da ferramenta: Sim - Formatos de resposta: Texto, JSON |
- Padrão global (Oeste dos EUA 3) | Fundição |
| mistral-documento-ai-2505 | Imagem para texto |
-
Entrada: imagem ou páginas PDF (30 páginas, máximo 30MB arquivo PDF) - Saída: texto - Idiomas: en - Chamada de ferramenta: não - Formatos de resposta: Texto, JSON, Markdown |
- Norma global (todas as regiões) - Padrão de zona de dados (EUA e UE) |
Fundição |
| Modelo | Tipo | Capabilities | Tipo de implantação (disponibilidade da região) |
|---|---|---|---|
Mistral-Large-3 |
chat-completion |
-
Entrada: texto, imagem - Saída: texto - Línguas: en, fr, de, es, it, pt, nl, zh, ja, koe ar - Ativação da ferramenta: Sim - Formatos de resposta: Texto, JSON |
- Padrão global (Oeste dos EUA 3) |
mistral-document-ai-2505 |
Imagem para texto |
-
Entrada: imagem ou páginas PDF (30 páginas, máximo 30MB arquivo PDF) - Saída: texto - Idiomas: en - Chamada de ferramenta: não - Formatos de resposta: Texto, JSON, Markdown |
- Norma global (todas as regiões) - Padrão de zona de dados (EUA e UE) |
Consulte a coleção de modelos Mistral no portal da Fundição. Você também pode encontrar vários modelos Mistral disponíveis de parceiros e comunidade.
Modelos de IA Moonshot vendidos diretamente pela Azure
Os modelos de IA Moonshot incluem o Kimi K2 Thinking, a versão mais recente e capaz do modelo de pensamento open-source. O Kimi K2 foi construído como um agente pensante que raciocina passo a passo enquanto invoca ferramentas de forma dinâmica. Estabelece um novo estado da arte no Exame Final da Humanidade (HLE), BrowseComp e outros benchmarks, ao aumentar significativamente a profundidade do raciocínio em múltiplos passos e manter o uso estável de ferramentas ao longo de 200–300 chamadas sequenciais.
As principais capacidades do Pensamento Kimi K2 incluem:
- Pensamento Profundo e Orquestração de Ferramentas: Treinado de ponta a ponta para intercalar raciocínio em cadeia de pensamento com chamadas de funções, permitindo trabalhos autónomos de investigação, programação e escrita que duram centenas de passos sem desvios.
- Quantização Nativa INT4: O Treino Quantization-Aware (QAT) é utilizado na fase pós-treino para alcançar uma aceleração 2x sem perdas em modo de baixa latência.
- Agência Long-Horizon Estável: Mantém um comportamento coerente orientado a objetivos ao longo de até 200–300 invocações consecutivas de ferramentas, superando modelos anteriores que degradam após 30–50 passos.
| Modelo | Tipo | Capabilities | Tipo de implantação (disponibilidade da região) | Tipo de projeto |
|---|---|---|---|---|
| Pensamento Kimi-K2 | chat-completion (com conteúdo de fundamentação) |
-
Entrada: texto (262.144 tokens) - Saída: texto (262.144 caracteres) - Línguas: en e zh - Ativação da ferramenta: Sim - Formatos de resposta: Texto |
- Norma global (todas as regiões) | Fundição baseada em hub |
| Modelo | Tipo | Capabilities | Tipo de implantação (disponibilidade da região) |
|---|---|---|---|
Kimi-K2-Thinking |
chat-completion (com conteúdo de fundamentação) |
-
Entrada: texto (262.144 tokens) - Saída: texto (262.144 caracteres) - Línguas: en e zh - Ativação da ferramenta: Sim - Formatos de resposta: Texto |
- Norma global (todas as regiões) |
Veja esta coleção de modelos no portal da Foundry.
Modelos xAI vendidos diretamente pelo Azure
Os modelos Grok da xAI na Foundry Models incluem um conjunto diversificado de modelos concebidos para se destacar em vários domínios empresariais com diferentes capacidades e faixas de preço, incluindo:
O Grok 3, um modelo não-racional pré-treinado no datacenter Colossus, é ajustado para cenários empresariais, como extração de dados, codificação e resumo de texto, com capacidades excecionais para seguir instruções. Ele suporta uma janela de contexto com 131.072 tokens, permitindo lidar com entradas extensas, mantendo coerência e profundidade, e é hábil em estabelecer ligações entre domínios e idiomas.
O Grok 3 Mini é um modelo de raciocínio leve treinado para lidar com problemas de agente, codificação, matemática e ciências profundas com computação em tempo de teste. Ele também suporta uma janela de contexto de token 131.072 para entender bases de código e documentos corporativos, e se destaca no uso de ferramentas para resolver problemas lógicos complexos em ambientes novos, oferecendo traços de raciocínio brutos para inspeção do usuário com orçamentos de pensamento ajustáveis.
Grok Code Fast 1, um modelo de raciocínio rápido e eficiente projetado para uso em aplicações de codificação agente. Ele foi pré-treinado em uma mistura de dados focada em codificação e, em seguida, pós-treinado em demonstrações de várias tarefas de codificação e uso de ferramentas, bem como demonstrações de comportamentos de recusa corretos com base na política de segurança da xAI. O registo é necessário para aceder ao modelo grok-code-fast-1.
Grok 4 Fast, um modelo de linguagem otimizado para eficiência que oferece recursos de raciocínio quase Grok 4 com latência e custo significativamente mais baixos, e pode ignorar totalmente o raciocínio para aplicações ultrarrápidas. Ele é treinado para o uso seguro e eficaz da ferramenta, com comportamentos de recusa integrados, um prompt fixo do sistema de aplicação de segurança e filtros de entrada para evitar o uso indevido.
O Grok 4 é o mais recente modelo de raciocínio da xAI com raciocínio avançado e recursos de uso de ferramentas, permitindo alcançar um novo desempenho de última geração em benchmarks acadêmicos e industriais desafiadores. O registo é necessário para aceder ao modelo grok-4. Ao contrário dos modelos rápidos do Grok 4 (raciocínio e não-raciocínio), o Grok 4 não suporta entrada de imagem.
| Modelo | Tipo | Capabilities | Tipo de implantação (disponibilidade da região) | Tipo de projeto |
|---|---|---|---|---|
| Grok-4 | chat-completion |
-
Entrada: texto (256.000 tokens) - Saída: texto (8,192 tokens) - Idiomas: en - Chamada de ferramenta: sim - Formatos de resposta: texto |
- Norma global (todas as regiões) | Fundição baseada em hub |
| grok-4-raciocínio rápido | chat-completion |
-
Entrada: texto, imagem (2.000.000 tokens) - Saída: texto (2.000.000 tokens) - Idiomas: en - Chamada de ferramenta: sim - Formatos de resposta: texto |
- Norma global (todas as regiões) - Padrão de zona de dados (EUA) |
Fundição baseada em hub |
| grok-4-rápido-não-raciocínio | chat-completion |
-
Entrada: texto, imagem (2.000.000 tokens) - Saída: texto (2.000.000 tokens) - Idiomas: en - Chamada de ferramenta: sim - Formatos de resposta: texto |
- Norma global (todas as regiões) - Padrão de zona de dados (EUA) |
Fundição baseada em hub |
| grok-código-fast-1 | chat-completion |
-
Entrada: texto (256.000 tokens) - Saída: texto (8,192 tokens) - Idiomas: en - Chamada de ferramenta: sim - Formatos de resposta: texto |
- Norma global (todas as regiões) | Fundição baseada em hub |
| Grok-3 | chat-completion |
-
Entrada: texto (131.072 tokens) - Saída: texto (131,072 tokens) - Idiomas: en - Chamada de ferramenta: sim - Formatos de resposta: texto |
- Norma global (todas as regiões) - Padrão de zona de dados (EUA) |
Fundição baseada em hub |
| grok-3-mini | chat-completion |
-
Entrada: texto (131.072 tokens) - Saída: texto (131,072 tokens) - Idiomas: en - Chamada de ferramenta: sim - Formatos de resposta: texto |
- Norma global (todas as regiões) - Padrão de zona de dados (EUA) |
Fundição baseada em hub |
| Modelo | Tipo | Capabilities | Tipo de implantação (disponibilidade da região) |
|---|---|---|---|
grok-4 |
chat-completion |
-
Entrada: texto, imagem (256.000 tokens) - Saída: texto (8,192 tokens) - Idiomas: en - Chamada de ferramenta: sim - Formatos de resposta: texto |
- Norma global (todas as regiões) |
grok-4-fast-reasoning |
chat-completion |
-
Entrada: texto, imagem (2.000.000 tokens) - Saída: texto (2.000.000 tokens) - Idiomas: en - Chamada de ferramenta: sim - Formatos de resposta: texto |
- Norma global (todas as regiões) - Padrão de zona de dados (EUA) |
grok-4-fast-non-reasoning |
chat-completion |
-
Entrada: texto, imagem (2.000.000 tokens) - Saída: texto (2.000.000 tokens) - Idiomas: en - Chamada de ferramenta: sim - Formatos de resposta: texto |
- Norma global (todas as regiões) - Padrão de zona de dados (EUA) |
grok-code-fast-1 |
chat-completion |
-
Entrada: texto (256.000 tokens) - Saída: texto (8,192 tokens) - Idiomas: en - Chamada de ferramenta: sim - Formatos de resposta: texto |
- Norma global (todas as regiões) |
grok-3 |
chat-completion |
-
Entrada: texto (131.072 tokens) - Saída: texto (131,072 tokens) - Idiomas: en - Chamada de ferramenta: sim - Formatos de resposta: texto |
- Norma global (todas as regiões) - Padrão de zona de dados (EUA) |
grok-3-mini |
chat-completion |
-
Entrada: texto (131.072 tokens) - Saída: texto (131,072 tokens) - Idiomas: en - Chamada de ferramenta: sim - Formatos de resposta: texto |
- Norma global (todas as regiões) - Padrão de zona de dados (EUA) |
Veja a coleção de modelos xAI no portal Foundry.
Disponibilidade da região do modelo por tipo de implantação
A Foundry Models oferece opções para a estrutura de hospedagem que se adapta ao seu negócio e padrões de uso. O serviço oferece dois tipos principais de implantação:
- Padrão: Tem uma opção de implantação global, roteando o tráfego globalmente para fornecer maior taxa de transferência.
- Provisionado: também possui uma opção de implantação global, permitindo ao utilizador adquirir e implantar unidades de largura de banda provisionadas na infraestrutura global do Azure.
Todas as implantações executam as mesmas operações de inferência, mas o faturamento, a escala e o desempenho diferem. Para mais informações sobre tipos de implantação, consulte Tipos de implantação em Modelos Foundry.
Disponibilidade do modelo Padrão Global
| Região | DeepSeek-R1-0528 | DeepSeek-R1 | DeepSeek-V3-0324 | DeepSeek-V3.1 | FLUX.1-Kontext-pro | FLUXO-1.1-pro | Grok-4 | grok-4-raciocínio rápido | grok-4-rápido-não-raciocínio | grok-código-fast-1 | Grok-3 | grok-3-mini | Llama-4-Maverick-17B-128E-Instruct-FP8 | Llama-3.3-70B-Instruct | MAI-DS-R1 | mistral-documento-ai-2505 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| leste da Austrália | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Brasil Sul | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Canadá Leste | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Eastus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Eastus2 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| FranceCentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Alemanha Oeste Central | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| ItáliaNorte | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| JapãoLeste | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Coreia Central | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| northcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Noruega Oriental | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Polónia Central | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southafricanorth | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Sul da Índia | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| spaincentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| suécia central | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| suíçanorte | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| switzerlandwest | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| uaenorth | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| UKSOUTH | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Europa Ocidental | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Westus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Westus3 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Modelos abertos e personalizados
O catálogo de modelos oferece uma seleção maior de modelos de uma ampla gama de fornecedores. Para estes modelos, não pode usar a opção de implementação padrão nos recursos do Microsoft Foundry, onde os modelos são fornecidos como APIs. Em vez disso, para implantar esses modelos, talvez seja necessário hospedá-los em sua infraestrutura, criar um hub de IA e fornecer a cota de computação subjacente para hospedar os modelos.
Além disso, estes modelos podem ser de acesso aberto ou protegidos por IP. Em ambos os casos, tens de os implementar em ofertas de computação gerida no Foundry. Para começar, consulte o guia Como implantar na computação gerenciada.