Partilhar via


Modelos de fundição vendidos diretamente pelo Azure

Observação

Este documento refere-se ao portal Microsoft Foundry (clássico).

🔄 Altere para a nova documentação do Microsoft Foundry se estiver a utilizar o novo portal.

Observação

Este documento refere-se ao portal Microsoft Foundry (novo ).

Este artigo lista uma seleção de modelos Microsoft Foundry vendidos diretamente pela Azure, juntamente com as suas capacidades, tipos de implementação e regiões de disponibilidade, excluindo modelos obsoletos e legados. Para ver uma lista de modelos Azure OpenAI suportados pelo Foundry Agent Service, consulte Modelos suportados pelo Agent Service.

Os modelos vendidos diretamente pelo Azure incluem todos os modelos OpenAI do Azure e modelos específicos selecionados dos principais fornecedores.

Dependendo do tipo de projeto que usas no Microsoft Foundry, vês uma seleção diferente de modelos. Especificamente, se usar um projeto Foundry construído sobre um recurso Foundry, verá os modelos disponíveis para implementação padrão num recurso Foundry. Alternativamente, se utilizar um projeto baseado em hub hospedado por um hub da Foundry, verá modelos disponíveis para implementação em computação gerida e em APIs serverless. Essas seleções de modelo geralmente se sobrepõem porque muitos modelos oferecem suporte a várias opções de implantação.

Os modelos de fundição estão disponíveis para implantação padrão em um recurso de fundição.

Para saber mais sobre os atributos dos Modelos Foundry vendidos diretamente pela Azure, consulte Explorar Modelos Foundry.

Observação

Os modelos Foundry vendidos diretamente pela Azure incluem também modelos selecionados de fornecedores de modelos de topo, tais como:

  • Laboratórios da Floresta Negra: FLUX.2-pro, FLUX.1-Kontext-pro, FLUX-1.1-pro
  • Cohere: Cohere-command-a, embed-v-4-0, Cohere-rerank-v4.0-pro, Cohere-rerank-v4.0-fast
  • DeepSeek: DeepSeek-V3.2, DeepSeek-V3.2-Speciale, DeepSeek-V3.1, DeepSeek-V3-0324, DeepSeek-R1-0528, DeepSeek-R1
  • IA Moonshot: Kimi-K2-Thinking
  • Meta: Llama-4-Maverick-17B-128E-Instruct-FP8, Llama-3.3-70B-Instruct
  • Microsoft: MAI-DS-R1, model-router
  • Mistral: mistral-document-ai-2505, Mistral-Large-3
  • xAI: grok-code-fast-1, grok-3, grok-3-mini, grok-4-fast-reasoning, grok-4-fast-non-reasoning, , grok-4

Para saber mais sobre esses modelos, alterne para Outras coleções de modelos na parte superior deste artigo.

Azure OpenAI em modelos Microsoft Foundry

O Azure OpenAI é alimentado por um conjunto diversificado de modelos com diferentes capacidades e preços. A disponibilidade do modelo varia de acordo com a região e a nuvem. Para obter a disponibilidade do modelo do Azure Government, consulte Azure OpenAI no Azure Government.

Models Description
Série GPT-5.2 NOVOgpt-5.2, gpt-5.2-chat (Pré-visualização)
Série GPT-5.1 NOVO,gpt-5.1gpt-5.1-chat , gpt-5.1-codex,gpt-5.1-codex-mini
Sora NOVO sora-2
Série GPT-5 GPT-5, GPT-5-mini, GPT-5-nano, GPT-5-chat
GPT-OSS modelos de raciocínio de peso aberto
códice-mini Versão afinada do o4-mini.
Série GPT-4.1 GPT-4.1, GPT-4.1-mini, GPT-4.1-nano
computer-use-preview Um modelo experimental treinado para uso com a ferramenta de uso do computador da API de Respostas.
Modelos da série O Modelos de raciocínio com resolução avançada de problemas e maior foco e capacidade.
GPT-4o, GPT-4o mini e GPT-4 Turbo Modelos OpenAI do Azure com versões multimodais capazes de aceitar tanto texto como imagens como entrada.
GPT-4 Um conjunto de modelos que melhoram o GPT-3.5 e podem compreender e gerar linguagem natural e código.
GPT-3.5 Um conjunto de modelos que melhoram o GPT-3 e podem compreender e gerar linguagem natural e código.
Embeddings Um conjunto de modelos que podem converter texto em forma vetorial numérica para facilitar a medição da semelhança de textos.
Geração de imagens Uma série de modelos que podem gerar imagens originais a partir de linguagem natural.
Video generation Um modelo que pode gerar cenas de vídeo originais a partir de instruções de texto.
Áudio Uma série de modelos para conversão de fala para texto, tradução, e de texto para fala. Os modelos de áudio GPT-4o suportam fala de baixa latência , interações conversacionais de saída de fala ou geração de áudio.

GPT-5.2

Disponibilidade da região

Modelo Região
gpt-5.2 Leste dos EUA 2 & Suécia Central (Padrão Global)
gpt-5.2-chat Leste dos EUA 2 & Suécia Central (Padrão Global)

O acesso será concedido com base nos critérios de elegibilidade da Microsoft. Os clientes que anteriormente se inscreveram e receberam acesso a um modelo de acesso limitado, não precisam se candidatar novamente, pois suas assinaturas aprovadas receberão acesso automaticamente após o lançamento do modelo.

ID do modelo Description Janela de contexto Máximo de Tokens de Saída Dados de formação (até)
gpt-5.2 (2025-12-11) - Fundamentação
- API de conclusão de chat.
- API de respostas.
- Resultados estruturados.
- Processamento de texto e imagem.
- Funções, ferramentas e chamadas paralelas.
- Resumo completo das capacidades.
400,000

Entrada: 272.000
Produção: 128.000
128,000 Outubro de 2024
gpt-5.2-chat (2025-12-11)
Preview
- API de conclusão de chat.
- API de respostas.
- Resultados estruturados
- Funções, ferramentas e chamadas paralelas.
128,000

Entrada: 111.616
Potência: 16.384
16,384 Outubro de 2024

GPT-5,1

Disponibilidade da região

Modelo Região
gpt-5.1 Leste US2 & Suécia Central (Padrão Global & Padrão DataZone)
gpt-5.1-chat Leste dos EUA 2 & Suécia Central (Padrão Global)
gpt-5.1-codex Leste dos EUA 2 & Suécia Central (Padrão Global)
gpt-5.1-codex-mini Leste dos EUA 2 & Suécia Central (Padrão Global)
gpt-5.1-codex-max Leste dos EUA 2 & Suécia Central (Padrão Global)

O acesso será concedido com base nos critérios de elegibilidade da Microsoft. Os clientes que anteriormente se inscreveram e receberam acesso a um modelo de acesso limitado, não precisam se candidatar novamente, pois suas assinaturas aprovadas receberão acesso automaticamente após o lançamento do modelo.

ID do modelo Description Janela de contexto Máximo de Tokens de Saída Dados de formação (até)
gpt-5.1 (2025-11-13) - Fundamentação
- API de conclusão de chat.
- API de respostas.
- Resultados estruturados.
- Processamento de texto e imagem.
- Funções, ferramentas e chamadas paralelas.
- Resumo completo das capacidades.
400,000

Entrada: 272.000
Produção: 128.000
128,000 30 de setembro de 2024
gpt-5.1-chat (2025-11-13) - Fundamentação
- API de conclusão de chat.
- API de respostas.
- Resultados estruturados
- Funções, ferramentas e chamadas paralelas.
128,000

Entrada: 111.616
Potência: 16.384
16,384 30 de setembro de 2024
gpt-5.1-codex (2025-11-13) - Somente API de respostas .
- Processamento de texto e imagem
- Resultados estruturados.
- Funções, ferramentas e chamadas paralelas.
- Resumo completo das capacidades
- Otimizado para Codex CLI & Codex VS Code extension
400,000

Entrada: 272.000
Produção: 128.000
128,000 30 de setembro de 2024
gpt-5.1-codex-mini (2025-11-13) - Somente API de respostas .
- Processamento de texto e imagem
- Resultados estruturados.
- Processamento de texto e imagem.
- Funções, ferramentas e chamadas paralelas.
- Resumo completo das capacidades
- Otimizado para Codex CLI & Codex VS Code extension
400,000

Entrada: 272.000
Produção: 128.000
128,000 30 de setembro de 2024
gpt-5.1-codex-max (2025-12-04) - Somente API de respostas .
- Processamento de texto e imagem
- Resultados estruturados.
- Processamento de texto e imagem.
- Funções, ferramentas e chamadas paralelas.
- Resumo completo das capacidades
- Otimizado para Codex CLI & Codex VS Code extension
400,000

Entrada: 272.000
Produção: 128.000
128,000 30 de setembro de 2024

Importante

  • gpt-5.1 reasoning_effort assume o valor padrão de none. Ao atualizar de modelos de raciocínio anteriores para o gpt-5.1, lembre-se de que pode ser necessário alterar seu código para passar um nível reasoning_effort explicitamente, caso queira que o raciocínio ocorra.

  • gpt-5.1-chat Adiciona recursos de raciocínio integrados. Como outros modelos de raciocínio, ele não suporta parâmetros como temperature. Se atualizar de usar gpt-5-chat (que não é um modelo de raciocínio) para gpt-5.1-chat, certifique-se de remover quaisquer parâmetros personalizados, como temperature, do seu código, que não são suportados por modelos de raciocínio.

  • gpt-5.1-codex-max adiciona suporte para definir reasoning_effort para xhigh. O esforço none de raciocínio não é suportado por gpt-5.1-codex-max.

GPT-5

Disponibilidade da região

Modelo Região
gpt-5 (2025-08-07) Consulte a tabela de modelos.
gpt-5-mini (2025-08-07) Consulte a tabela de modelos.
gpt-5-nano (2025-08-07) Consulte a tabela de modelos.
gpt-5-chat (2025-08-07) Consulte a tabela de modelos.
gpt-5-chat (2025-10-03) Leste US2 (Padrão Global) e Suécia Central (Padrão Global)
gpt-5-codex (2025-09-11) Leste US2 (Padrão Global) e Suécia Central (Padrão Global)
gpt-5-pro (2025-10-06) Leste US2 (Padrão Global) e Suécia Central (Padrão Global)

O acesso será concedido com base nos critérios de elegibilidade da Microsoft. Os clientes que se inscreveram anteriormente e receberam acesso ao o3, não precisam se candidatar novamente, pois suas assinaturas aprovadas receberão acesso automaticamente após o lançamento do modelo.

ID do modelo Description Janela de contexto Máximo de Tokens de Saída Dados de formação (até)
gpt-5 (2025-08-07) - Fundamentação
- API de conclusão de chat.
- API de respostas.
- Resultados estruturados.
- Processamento de texto e imagem.
- Funções, ferramentas e chamadas paralelas.
- Resumo completo das capacidades.
400,000

Entrada: 272.000
Produção: 128.000
128,000 30 de setembro de 2024
gpt-5-mini (2025-08-07) - Fundamentação
- API de conclusão de chat.
- API de respostas.
- Resultados estruturados.
- Processamento de texto e imagem.
- Funções, ferramentas e chamadas paralelas.
- Resumo completo das capacidades.
400,000

Entrada: 272.000
Produção: 128.000
128,000 31 de maio de 2024
gpt-5-nano (2025-08-07) - Fundamentação
- API de conclusão de chat.
- API de respostas.
- Resultados estruturados.
- Processamento de texto e imagem.
- Funções, ferramentas e chamadas paralelas.
- Resumo completo das capacidades.
400,000

Entrada: 272.000
Produção: 128.000
128,000 31 de maio de 2024
gpt-5-chat (2025-08-07)
Preview
- API de conclusão de chat.
- API de respostas.
- Entrada: Texto/Imagem
- Saída: Somente texto
128,000 16,384 30 de setembro de 2024
gpt-5-chat (2025-10-03)
Previsualizar1
- API de conclusão de chat.
- API de respostas.
- Entrada: Texto/Imagem
- Saída: Somente texto
128,000 16,384 30 de setembro de 2024
gpt-5-codex (2025-09-11) - Somente API de respostas .
- Entrada: Texto/Imagem
- Saída: Somente texto
- Resultados estruturados.
- Processamento de texto e imagem.
- Funções, ferramentas e chamadas paralelas.
- Resumo completo das capacidades
- Otimizado para Codex CLI & Codex VS Code extension
400,000

Entrada: 272.000
Produção: 128.000
128,000 -
gpt-5-pro (2025-10-06) - Fundamentação
- API de respostas.
- Resultados estruturados.
- Processamento de texto e imagem.
- Funções e ferramentas
- Resumo completo das capacidades.
400,000

Entrada: 272.000
Produção: 128.000
128,000 30 de setembro de 2024

Observação

gpt-5-chat A versão 2025-10-03 1 introduz uma melhoria significativa focada nas capacidades de inteligência emocional e saúde mental. Esta atualização integra conjuntos de dados especializados e estratégias de resposta refinadas para melhorar a capacidade do modelo para:

  • Compreender e interpretar o contexto emocional com mais precisão, permitindo interações matizadas e empáticas.
  • Dar respostas solidárias e responsáveis em conversas relacionadas com a saúde mental, garantindo sensibilidade e adesão às melhores práticas.

Essas melhorias visam tornar o bate-papo GPT-5 mais sensível ao contexto, centrado no ser humano e confiável em cenários onde o tom emocional e as considerações de bem-estar são críticos.

GPT-OSS

Disponibilidade da região

Modelo Região
gpt-oss-120b Todas as regiões do Azure OpenAI

Capabilities

ID do modelo Description Janela de contexto Máximo de Tokens de Saída Dados de formação (até)
gpt-oss-120b (Pré-visualização) - Apenas texto de entrada/saída de texto
- API de conclusão de bate-papo
- Streaming
- Chamadas de função
- Resultados estruturados
- Raciocínio
- Disponível para implantação1 e via computação gerenciada
131,072 131,072 31 de maio de 2024
gpt-oss-20b (Pré-visualização) - Apenas texto de entrada/saída de texto
- API de conclusão de bate-papo
- Streaming
- Chamadas de função
- Resultados estruturados
- Raciocínio
- Disponível via computação gerenciada e Foundry Local
131,072 131,072 31 de maio de 2024

1 Ao contrário de outros modelos gpt-oss-120b Azure, OpenAI requer um projeto Foundry para implementar o modelo.

Implantar com código

az cognitiveservices account deployment create \
  --name "Foundry-project-resource" \
  --resource-group "test-rg" \
  --deployment-name "gpt-oss-120b" \
  --model-name "gpt-oss-120b" \
  --model-version "1" \
  --model-format "OpenAI-OSS" \
  --sku-capacity 10 \
  --sku-name "GlobalStandard"

Série GPT-4.1

Disponibilidade da região

Modelo Região
gpt-4.1 (2025-04-14) Consulte a tabela de modelos.
gpt-4.1-nano (2025-04-14) Consulte a tabela de modelos.
gpt-4.1-mini (2025-04-14) Consulte a tabela de modelos.

Capabilities

Importante

Um problema conhecido está a afetar todos os modelos da série GPT 4.1. Grandes definições de chamada de ferramenta ou função que excedam 300.000 tokens resultarão em falhas, mesmo que o limite de contexto de 1 milhão de tokens dos modelos não tenha sido atingido.

Os erros podem variar com base na chamada de API e nas características de carga subjacente.

Aqui estão as mensagens de erro para a API de conclusão de bate-papo:

  • Error code: 400 - {'error': {'message': "This model's maximum context length is 300000 tokens. However, your messages resulted in 350564 tokens (100 in the messages, 350464 in the functions). Please reduce the length of the messages or functions.", 'type': 'invalid_request_error', 'param': 'messages', 'code': 'context_length_exceeded'}}

  • Error code: 400 - {'error': {'message': "Invalid 'tools[0].function.description': string too long. Expected a string with maximum length 1048576, but got a string with length 2778531 instead.", 'type': 'invalid_request_error', 'param': 'tools[0].function.description', 'code': 'string_above_max_length'}}

Aqui está a mensagem de erro para a API de respostas:

  • Error code: 500 - {'error': {'message': 'The server had an error processing your request. Sorry about that! You can retry your request, or contact us through an Azure support request at: https://go.microsoft.com/fwlink/?linkid=2213926 if you keep seeing this error. (Please include the request ID d2008353-291d-428f-adc1-defb5d9fb109 in your email.)', 'type': 'server_error', 'param': None, 'code': None}}
ID do modelo Description Janela de contexto Tokens de saída máxima Dados de formação (até)
gpt-4.1 (2025-04-14) - Entrada de texto e imagem
- Saída de texto
- API de completões de chat
- API de Respostas
- Streaming
- Chamadas de função
- Saídas estruturadas (conclusão de chat)
- 1,047,576
- 128.000 (implantações gerenciadas provisionadas)
- 300.000 (implantações em lote)
32,768 31 de maio de 2024
gpt-4.1-nano (2025-04-14) - Entrada de texto e imagem
- Saída de texto
- API de completões de chat
- API de Respostas
- Streaming
- Chamadas de função
- Saídas estruturadas (conclusão de chat)
- 1,047,576
- 128.000 (implantações gerenciadas provisionadas)
- 300.000 (implantações em lote)
32,768 31 de maio de 2024
gpt-4.1-mini (2025-04-14) - Entrada de texto e imagem
- Saída de texto
- API de completões de chat
- API de Respostas
- Streaming
- Chamadas de função
- Saídas estruturadas (conclusão de chat)
- 1,047,576
- 128.000 (implantações gerenciadas provisionadas)
- 300.000 (implantações em lote)
32,768 31 de maio de 2024

computer-use-preview

Um modelo experimental treinado para uso com a ferramenta Responses API de uso informático.

Ele pode ser usado com bibliotecas de terceiros para permitir que o modelo controle a entrada de mouse e teclado, enquanto obtém contexto a partir de capturas de tela do ambiente atual.

Atenção

Não recomendamos o uso de modelos de visualização em produção. Atualizaremos todas as implantações de modelos de visualização para versões de visualização futuras ou para a versão estável e geralmente disponível mais recente. Os modelos designados como visualização não seguem o ciclo de vida padrão do modelo OpenAI do Azure.

É necessário registar-se para aceder computer-use-previewao . O acesso é concedido com base nos critérios de elegibilidade da Microsoft. Os clientes que têm acesso a outros modelos de acesso limitado ainda precisam solicitar acesso para esse modelo.

Para solicitar acesso, vá para aplicativo modelo decomputer-use-preview acesso limitado. Quando o acesso é concedido, você precisa criar uma implantação para o modelo.

Disponibilidade da região

Modelo Região
computer-use-preview Consulte a tabela de modelos.

Capabilities

ID do modelo Description Janela de contexto Tokens de saída máxima Dados de formação (até)
computer-use-preview (2025-03-11) Modelo especializado para uso com a ferramenta API Responses para uso de computador

- Ferramentas
- Streaming
- Texto (entrada/saída)
- Imagem (entrada)
8,192 1,024 Outubro de 2023

Modelos da série O

Os modelos da série O Azure OpenAI foram concebidos para lidar com tarefas de raciocínio e resolução de problemas com maior foco e capacidade. Esses modelos gastam mais tempo processando e entendendo a solicitação do usuário, tornando-os excepcionalmente fortes em áreas como ciência, codificação e matemática, em comparação com iterações anteriores.

ID do modelo Description Pedido Máximo (tokens) Dados de formação (até)
codex-mini (2025-05-16) Versão ajustada do o4-mini.
- API de respostas.
- Resultados estruturados.
- Processamento de texto e imagem.
- Funções e ferramentas.
Resumo completo das capacidades.
Entrada: 200 000
Saída: 100 000
31 de maio de 2024
o3-pro (2025-06-10) - API de respostas.
- Resultados estruturados.
- Processamento de texto e imagem.
- Funções e ferramentas.
Resumo completo das capacidades.
Entrada: 200 000
Saída: 100 000
31 de maio de 2024
o4-mini (2025-04-16) - Novo modelo de raciocínio, oferecendo capacidades de raciocínio melhoradas.
- API de conclusão de chat.
- API de respostas.
- Resultados estruturados.
- Processamento de texto e imagem.
- Funções e ferramentas.
Resumo completo das capacidades.
Entrada: 200 000
Saída: 100 000
31 de maio de 2024
o3 (2025-04-16) - Novo modelo de raciocínio, oferecendo capacidades de raciocínio melhoradas.
- API de conclusão de chat.
- API de respostas.
- Resultados estruturados.
- Processamento de texto e imagem.
- Funções, ferramentas e chamadas paralelas.
Resumo completo das capacidades.
Entrada: 200 000
Saída: 100 000
31 de maio de 2024
o3-mini (2025-01-31) - Capacidades de raciocínio melhoradas.
- Resultados estruturados.
- Processamento somente texto.
- Funções e ferramentas.
Entrada: 200 000
Saída: 100 000
Outubro de 2023
o1 (2024-12-17) - Capacidades de raciocínio melhoradas.
- Resultados estruturados.
- Processamento de texto e imagem.
- Funções e ferramentas.
Entrada: 200 000
Saída: 100 000
Outubro de 2023
o1-preview (2024-09-12) Versão de pré-visualização mais antiga. Entrada: 128.000
Potência: 32.768
Outubro de 2023
o1-mini (2024-09-12) Uma opção mais rápida e económica na série o1, ideal para tarefas de codificação que exigem velocidade e menor consumo de recursos.
- Implantação de padrão global disponível por padrão.
- Atualmente, as implantações padrão (regionais) estão disponíveis apenas para clientes selecionados que receberam acesso como parte da versão de o1-preview acesso limitado.
Entrada: 128.000
Saída: 65.536
Outubro de 2023

Para saber mais sobre modelos avançados da série o, consulte Introdução aos modelos de raciocínio.

Disponibilidade da região

Modelo Região
codex-mini Leste US2 & Suécia Central (Padrão Global).
o3-pro Leste US2 & Suécia Central (Padrão Global).
o4-mini Consulte a tabela de modelos.
o3 Consulte a tabela de modelos.
o3-mini Consulte a tabela de modelos.
o1 Consulte a tabela de modelos.
o1-preview Consulte a tabela de modelos. Este modelo está disponível apenas para clientes aos quais foi concedido acesso como parte do acesso limitado original.
o1-mini Consulte a tabela de modelos.

GPT-4o e GPT-4 Turbo

O GPT-4o integra texto e imagens em um único modelo, o que permite lidar com vários tipos de dados simultaneamente. Esta abordagem multimodal aumenta a precisão e a capacidade de resposta nas interações homem-computador. O GPT-4o combina com o GPT-4 Turbo em tarefas de texto e codificação em inglês, oferecendo um desempenho superior em tarefas de linguagem não inglesa e tarefas de visão, estabelecendo novos padrões de referência para os recursos de IA.

Modelos GPT-4 e GPT-4 Turbo

Esses modelos podem ser usados somente com a API de conclusão de bate-papo.

Consulte Versões de modelo para saber como o Azure OpenAI lida com atualizações de versão de modelo. Consulte Trabalhando com modelos para saber como exibir e definir as configurações de versão do modelo de suas implantações GPT-4.

ID do modelo Description Pedido Máximo (tokens) Dados de formação (até)
gpt-4o (2024-11-20)
GPT-4o (Omni)
- Resultados estruturados.
- Processamento de texto e imagem.
- Modo JSON.
- Chamada de função paralela.
- Maior precisão e capacidade de resposta.
- Paridade com texto em inglês e tarefas de codificação em comparação com GPT-4 Turbo com Vision.
- Desempenho superior em idiomas diferentes do inglês e em tarefas de visão.
- Maior capacidade de escrita criativa.
Entrada: 128.000
Potência: 16.384
Outubro de 2023
gpt-4o (2024-08-06)
GPT-4o (Omni)
- Resultados estruturados.
- Processamento de texto e imagem.
- Modo JSON.
- Chamada de função paralela.
- Maior precisão e capacidade de resposta.
- Paridade com texto em inglês e tarefas de codificação em comparação com GPT-4 Turbo com Vision.
- Desempenho superior em idiomas diferentes do inglês e em tarefas de visão.
Entrada: 128.000
Potência: 16.384
Outubro de 2023
gpt-4o-mini (2024-07-18)
GPT-4o mini |
- Modelo rápido, barato e capaz, ideal para substituir os modelos da série GPT-3.5 Turbo.
- Processamento de texto e imagem.
- Modo JSON.
- Chamada de função paralela.
Entrada: 128.000
Potência: 16.384
Outubro de 2023
gpt-4o (2024-05-13)
GPT-4o (Omni)
- Processamento de texto e imagem.
- Modo JSON.
- Chamada de função paralela.
- Maior precisão e capacidade de resposta.
- Paridade com texto em inglês e tarefas de codificação em comparação com GPT-4 Turbo com Vision.
- Desempenho superior em idiomas diferentes do inglês e em tarefas de visão.
Entrada: 128.000
Saída: 4,096
Outubro de 2023
gpt-4 (turbo-2024-04-09)
GPT-4 Turbo com Visão
Novo modelo disponível em geral.
- Substituição de todos os modelos anteriores de pré-visualização GPT-4 (vision-preview, 1106-Preview, 0125-Preview).
- Atualmente , a disponibilidade de recursos é diferente, dependendo do método de entrada e do tipo de implantação.
Entrada: 128.000
Saída: 4,096
Dezembro de 2023

Atenção

Não recomendamos que você use modelos de visualização na produção. Atualizaremos todas as implantações de modelos de visualização para versões de visualização futuras ou para a versão estável e geralmente disponível mais recente. Os modelos designados como visualização não seguem o ciclo de vida padrão do modelo OpenAI do Azure.

GPT-3.5

Os modelos GPT-3.5 podem compreender e gerar linguagem natural ou código. O modelo mais capaz e econômico da família GPT-3.5 é o GPT-3.5 Turbo, que é otimizado para bate-papo e também funciona bem para tarefas de conclusão tradicionais. O GPT-3.5 Turbo está disponível para uso com a API de Conclusão de Chat. O GPT-3.5 Turbo Instruct tem recursos semelhantes aos text-davinci-003 de quando você usa a API de Conclusão em vez da API de Conclusão de Chat. Recomendamos o uso do GPT-3.5 Turbo e GPT-3.5 Turbo Instruct sobre os modelos legados GPT-3.5 e GPT-3.

ID do modelo Description Pedido Máximo (tokens) Dados de formação (até)
gpt-35-turbo (0125) novo - Modo JSON.
- Chamada de função paralela.
- Produção reprodutível (pré-visualização).
- Maior precisão quando responde nos formatos solicitados.
- Inclui uma correção para um bug que causou um problema de codificação de texto para chamadas de função de idioma diferente do inglês.
Entrada: 16.385
Saída: 4,096
Setembro 2021
gpt-35-turbo (1106) Modelo mais antigo geralmente disponível.
- Modo JSON.
- Chamada de função paralela.
- Produção reprodutível (pré-visualização).
Entrada: 16.385
Saída: 4,096
Setembro 2021
gpt-35-turbo-instruct (0914) Somente ponto de extremidade de conclusão.
- Substituição de modelos de acabamentos legados.
4,097 Setembro 2021

Para saber mais sobre como interagir com o GPT-3.5 Turbo e a API de conclusão de bate-papo, confira nosso artigo detalhado de instruções.

Incorporações

text-embedding-3-large é o modelo de incorporação mais recente e mais capaz. Não é possível atualizar entre modelos de incorporação. Para passar do uso text-embedding-ada-002 para o text-embedding-3-large, você precisa gerar novas incorporações.

  • text-embedding-3-large
  • text-embedding-3-small
  • text-embedding-ada-002

A OpenAI relata que os testes mostram que tanto os modelos de incorporação de terceira geração grandes quanto os pequenos oferecem melhor desempenho médio de recuperação multilíngüe com o benchmark MIRACL . Eles ainda mantêm o desempenho para tarefas em inglês com o benchmark MTEB .

Parâmetro de referência da avaliação text-embedding-ada-002 text-embedding-3-small text-embedding-3-large
Média MIRACL 31.4 44.0 54.9
média de MTEB 61.0 62.3 64.6

Os modelos de incorporação de terceira geração suportam a redução do tamanho da incorporação através de um novo dimensions parâmetro. Normalmente, incorporações maiores são mais caras do ponto de vista de computação, memória e armazenamento. Quando você pode ajustar o número de dimensões, ganha mais controle sobre o custo geral e o desempenho. O dimensions parâmetro não é suportado em todas as versões da biblioteca OpenAI 1.x Python. Para aproveitar esse parâmetro, recomendamos que você atualize para a versão mais recente: pip install openai --upgrade.

O teste de benchmark MTEB da OpenAI descobriu que, mesmo quando as dimensões do modelo de terceira geração são reduzidas para menos do que as 1.536 dimensões do text-embeddings-ada-002, o desempenho permanece ligeiramente melhor.

Modelos de geração de imagem

Os modelos de geração de imagem geram imagens a partir de prompts de texto que o usuário fornece. Os modelos da série GPT-image-1 estão em pré-visualização de acesso limitado. O DALL-E 3 está geralmente disponível para uso com as APIs REST. DALL-E 2 e DALL-E 3 com SDKs para clientes estão em pré-visualização.

É necessário registro para aceder gpt-image-1, gpt-image-1-mini ou gpt-image-1.5. O acesso é concedido com base nos critérios de elegibilidade da Microsoft. Os clientes que têm acesso a outros modelos de acesso limitado ainda precisam solicitar acesso para esse modelo.

Para solicitar acesso, preencha um formulário de candidatura: Candidatar-se ao acesso GPT-image-1; Candidate-se ao acesso GPT-image-1.5. Quando o acesso é concedido, você precisa criar uma implantação para o modelo.

Disponibilidade da região

Modelo Região
dall-e-3 E.U.A. Leste
Leste da Austrália
Suécia Central
gpt-image-1 Oeste dos EUA 3 (Padrão Global)
East US 2 (Padrão Global)
Norte dos Emirados Árabes Unidos (Padrão Global)
Polónia Central (Norma Global)
Suécia Central (Padrão Global)
gpt-image-1-mini Oeste dos EUA 3 (Padrão Global)
East US 2 (Padrão Global)
Norte dos Emirados Árabes Unidos (Padrão Global)
Polónia Central (Norma Global)
Suécia Central (Padrão Global)
gpt-image-1.5 Oeste dos EUA 3 (Padrão Global)
East US 2 (Padrão Global)
Norte dos Emirados Árabes Unidos (Padrão Global)
Polónia Central (Norma Global)
Suécia Central (Padrão Global)

Modelos de geração de vídeo

Sora é um modelo de IA da OpenAI que pode criar cenas de vídeo realistas e imaginativas a partir de instruções de texto. Sora está em pré-visualização.

Disponibilidade da região

Modelo Região
sora Leste dos EUA 2 (Padrão Global)
Suécia Central (Padrão Global)
sora-2 Leste dos EUA 2 (Padrão Global)
Suécia Central (Padrão Global)

Modelos de áudio

Os modelos de áudio no Azure OpenAI estão disponíveis através das realtimeAPIs , completionse audio .

Modelos de áudio GPT-4o

Os modelos de áudio GPT-4o fazem parte da família de modelos GPT-4o e suportam interações conversacionais de baixa latência, entrada de fala, saída de fala ou geração de áudio.

Atenção

Não recomendamos o uso de modelos de visualização em produção. Atualizaremos todas as implantações de modelos de visualização para versões de visualização futuras ou para a versão estável e geralmente disponível mais recente. Os modelos designados como visualização não seguem o ciclo de vida padrão do modelo OpenAI do Azure.

Detalhes sobre tokens de solicitação máxima e dados de treinamento estão disponíveis na tabela a seguir:

ID do modelo Description Pedido Máximo (tokens) Dados de formação (até)
gpt-4o-mini-audio-preview (2024-12-17)
Áudio GPT-4o
Modelo de áudio para geração de áudio e texto. Entrada: 128.000
Potência: 16.384
Setembro de 2023
gpt-4o-audio-preview (2024-12-17)
Áudio GPT-4o
Modelo de áudio para geração de áudio e texto. Entrada: 128.000
Potência: 16.384
Setembro de 2023
gpt-4o-realtime-preview (2025-06-03)
Áudio GPT-4o
Modelo de áudio para processamento de áudio em tempo real. Entrada: 128.000
Saída: 4,096
Outubro de 2023
gpt-4o-realtime-preview (2024-12-17)
Áudio GPT-4o
Modelo de áudio para processamento de áudio em tempo real. Entrada: 128.000
Saída: 4,096
Outubro de 2023
gpt-4o-mini-realtime-preview (2024-12-17)
Áudio GPT-4o
Modelo de áudio para processamento de áudio em tempo real. Entrada: 128.000
Saída: 4,096
Outubro de 2023
gpt-realtime (2025-08-28) (GA)
gpt-realtime-mini (2025-10-06)
gpt-realtime-mini-2025-12-15 (2025-12-15)
gpt-audio(2025-08-28)
gpt-audio-mini(06-10-2025)
Modelo de áudio para processamento de áudio em tempo real. Entrada: 28.672
Saída: 4,096
Outubro de 2023

Para comparar a disponibilidade de modelos de áudio GPT-4o em todas as regiões, consulte a tabela de modelos.

API de áudio

Os modelos de áudio por meio da /audio API podem ser usados para conversão de fala em texto, tradução e conversão de texto em fala.

Modelos de fala para texto

ID do modelo Description Max solicitação (tamanho do arquivo de áudio)
whisper Modelo de reconhecimento de fala de uso geral. 25 MB
gpt-4o-transcribe Modelo de fala para texto alimentado por GPT-4o. 25 MB
gpt-4o-mini-transcribe Modelo de fala para texto alimentado por GPT-4o mini. 25 MB
gpt-4o-transcribe-diarize Modelo de fala para texto com reconhecimento automático de fala. 25 MB
gpt-4o-mini-transcribe-2025-12-15 Modelo de fala para texto com reconhecimento automático de fala. Melhoria da precisão e robustez da transcrição. 25 MB

Modelos de tradução de fala

ID do modelo Description Max solicitação (tamanho do arquivo de áudio)
whisper Modelo de reconhecimento de fala de uso geral. 25 MB

Modelos de conversão de texto em fala (visualização)

ID do modelo Description
tts Modelo de conversão de texto em fala otimizado para velocidade.
tts-hd Modelo text-to-speech otimizado para qualidade.
gpt-4o-mini-tts Modelo text-to-speech alimentado por GPT-4o mini.

Você pode guiar a voz para falar em um estilo ou tom específico.
gpt-4o-mini-tts-2025-12-15 Modelo text-to-speech alimentado por GPT-4o mini.

Você pode guiar a voz para falar em um estilo ou tom específico.

Para obter mais informações, consulte Disponibilidade da região de modelos de áudio mais adiante neste artigo.

Tabela de resumo do modelo e disponibilidade da região

Modelos por tipo de implantação

O Azure OpenAI oferece aos clientes opções sobre a estrutura de hospedagem que se adapta aos seus padrões de negócios e uso. O serviço oferece dois tipos principais de implantação:

  • Padrão: Tem uma opção de implantação global, roteando o tráfego globalmente para fornecer maior taxa de transferência.
  • Provisionado: também tem uma opção de implantação global, permitindo que os clientes comprem e implantem unidades de taxa de transferência provisionadas na infraestrutura global do Azure.

Todas as implantações podem executar exatamente as mesmas operações de inferência, mas o faturamento, a escala e o desempenho são substancialmente diferentes. Para saber mais sobre os tipos de implantação do Azure OpenAI, consulte nosso Guia de tipos de implantação.

Disponibilidade do modelo Padrão Global

Região GPT-5.2, 2025-12-11 gpt-5.2-chat, 2025-12-11 GPT-5.1, 13-11-2025 gpt-5.1-chat, 2025-11-13 gpt-5.1-codex, 2025-11-13 gpt-5.1-códice-mini, 2025-11-13 GPT-5-PRO, 2025-10-06 GPT-5, 2025-08-07 GPT-5-Mini, 2025-08-07 GPT-5-nano, 2025-08-07 gpt-5-chat, 2025-08-07 gpt-5-chat, 2025-10-03 O3-PRO, 2025-06-10 códice-mini, 2025-05-16 Sora, 2025-05-02 modelo-router, 2025-08-07 modelo-router, 2025-05-19 model-router, 2025-11-18 O3, 2025-04-16 O4-MINI, 2025-04-16 gpt-imagem-1, 2025-04-15 GPT-4.1, 14-04-2025 GPT-4.1-NANO, 2025-04-14 GPT-4.1-Mini, 2025-04-14 pré-visualização de uso do computador, 2025-03-11 O3-Mini, 2025-01-31 o1, 2024-12-17 O1-Mini, 2024-09-12 GPT-4O, 2024-05-13 GPT-4O, 2024-08-06 GPT-4O, 2024-11-20 GPT-4O-Mini, 2024-07-18 incorporação de texto-3-pequeno, 1 incorporação de texto-3-grande, 1 incorporação de textos-ada-002, 2 gpt-4o-visualização em tempo real, 2024-12-17 gpt-4o-visualização em tempo real, 2025-06-03 gpt-4o-áudio-prévia, 2024-12-17 gpt-4o-mini-visualização em tempo real, 2024-12-17 gpt-4o-mini-áudio-pré-visualização, 2024-12-17 gpt-4o-transcrição, 2025-03-20 GPT-4O-Mini-TTS, 2025-03-20 gpt-4o-mini-transcrição, 2025-03-20 GPT-5-códice, 2025-09-15 gpt-tempo real, 2025-08-28 GPT-AUDIO-MINI, 06-10-2025 gpt-imagem-1-mini, 2025-10-06 gpt-realtime-mini, 2025-10-06 gpt-áudio, 2025-08-28 SORA-2, 2025-10-06 O3-Investigação aprofundada, 2025-06-26 gpt-4o-transcribe-diarize, 2025-10-15
leste da Austrália - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Brasil Sul - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
CanadáCentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Canadá Leste - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Centralus - - - - - - - - - - - - - - - - - - - - - - - - -
Eastus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Eastus2 -
FranceCentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Alemanha Oeste Central - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
ItáliaNorte - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
JapãoLeste - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Coreia Central - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
northcentralus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Noruega Oriental - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Polónia Central - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
southafricanorth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
southcentralus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
southeastasia - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Sul da Índia - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
spaincentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
suécia central - - -
suíçanorte - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
uaenorth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
UKSOUTH - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Europa Ocidental - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Westus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Westus3 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Observação

o3-deep-research atualmente está disponível apenas com o Foundry Agent Service. Para saber mais, consulte as orientações da ferramenta Deep Research.

Esta tabela não inclui informações ajustadas de disponibilidade regional. Consulte a secção de afinação fina para obter estas informações.

Modelos de implantação padrão (regionais) por ponto de extremidade

Finalizações de chat

Região o1-pré-visualização, 2024-09-12 O1-Mini, 2024-09-12 GPT-4O, 2024-05-13 GPT-4O, 2024-11-20 GPT-4O, 2024-08-06 GPT-4O-Mini, 2024-07-18 GPT-4, turbo-2024-04-09 GPT-35-Turbo, 1106 GPT-35-Turbo, 0125
leste da Austrália - - - - - -
Canadá Leste - - - - - -
Eastus -
Eastus2 -
FranceCentral - - - - - -
JapãoLeste - - - - - - -
northcentralus -
Noruega Oriental - - - - - - - -
southcentralus -
Sul da Índia - - - - - -
suécia central
suíçanorte - - - - - - -
UKSOUTH - - - - - -
Europa Ocidental - - - - - - - -
Westus
Westus3 -

Observação

o1-mini está atualmente disponível para todos os clientes para implantação do Padrão Global.

Alguns clientes receberam acesso de implantação padrão (regional) a o1-mini como parte de o1-preview a versão de acesso limitado. No momento, o acesso a o1-mini implantações padrão (regionais) não está sendo expandido.

Para saber como o Azure OpenAI lida com atualizações de versão de modelo, consulte Versões de modelo. Para saber como visualizar e configurar as configurações de versão do modelo de suas implantações GPT-3.5 Turbo, consulte Trabalhando com modelos.

Modelos de afinação fina

Observação

As regiões suportadas para ajuste fino podem variar se usar modelos Azure OpenAI num projeto Microsoft Foundry ou fora de um projeto.

ID do modelo Regiões padrão Global Desenvolvedor Pedido Máximo (tokens) Dados de formação (até) Modality
gpt-4o-mini
(2024-07-18)
Centro-Norte dos EUA
Suécia Central
Entrada: 128.000
Potência: 16.384
Duração do contexto do exemplo de treinamento: 65.536
Outubro de 2023 Texto para texto
gpt-4o
(2024-08-06)
Leste EUA2
Centro-Norte dos EUA
Suécia Central
Entrada: 128.000
Potência: 16.384
Duração do contexto do exemplo de treinamento: 65.536
Outubro de 2023 Texto e visão para texto
gpt-4.1
(2025-04-14)
Centro-Norte dos EUA
Suécia Central
Entrada: 128.000
Potência: 16.384
Duração do contexto do exemplo de treinamento: 65.536
maio de 2024 Texto e visão para texto
gpt-4.1-mini
(2025-04-14)
Centro-Norte dos EUA
Suécia Central
Entrada: 128.000
Potência: 16.384
Duração do contexto do exemplo de treinamento: 65.536
maio de 2024 Texto para texto
gpt-4.1-nano (2025-04-14) Centro-Norte dos EUA
Suécia Central
Entrada: 128.000
Potência: 16.384
Duração do contexto do exemplo de treinamento: 32.768
maio de 2024 Texto para texto
o4-mini
(2025-04-16)
Leste EUA2
Suécia Central
Entrada: 128.000
Potência: 16.384
Duração do contexto do exemplo de treinamento: 65.536
maio de 2024 Texto para texto
Ministral-3B (pré-visualização)
(2411)
Não suportado Entrada: 128.000
Saída: Desconhecida
Exemplo de contexto de treino Duração: Desconhecido
Desconhecido Texto para texto
Qwen-32B (pré-visualização) Não suportado Entrada: 8.000
Produção: 32.000
Comprimento do exemplo de contexto de treinamento: 8192
Julho de 2024 Texto para texto

Observação

O treinamento global oferece treinamento mais acessível por token, mas não oferece residência de dados. Está atualmente disponível para recursos da Foundry nas seguintes regiões:

  • Leste da Austrália
  • Sul do Brasil
  • Canadá Central
  • Leste do Canadá
  • E.U.A. Leste
  • Leste dos EUA2
  • Centro de França
  • Alemanha Centro-Oeste
  • Norte de Itália
  • Leste do Japão (sem suporte à visão)
  • Coreia Central
  • E.U.A. Centro-Norte
  • Leste da Noruega
  • Polónia Central (sem suporte 4.1-nano)
  • Sudeste Asiático
  • Norte da África do Sul
  • E.U.A. Centro-Sul
  • Sul da Índia
  • Espanha Central
  • Suécia Central
  • Oeste da Suíça
  • Norte da Suíça
  • Sul do Reino Unido
  • Europa Ocidental
  • E.U.A. Oeste
  • Oeste dos EUA3

Assistentes (pré-visualização)

Para assistentes, você precisa de uma combinação de um modelo suportado e uma região suportada. Certas ferramentas e capacidades requerem os modelos mais recentes. Os seguintes modelos estão disponíveis na API, SDK e Foundry dos Assistentes. A tabela a seguir é para implantação padrão. Para obter informações sobre a disponibilidade da unidade de taxa de transferência provisionada, consulte Taxa de transferência provisionada. Os modelos e regiões listados podem ser usados com os Assistentes v1 e v2. Você pode usar modelos Padrão Global se eles forem suportados nas seguintes regiões.

Região GPT-4O, 2024-05-13 GPT-4O, 2024-08-06 GPT-4O-Mini, 2024-07-18 GPT-4, 0613 gpt-4, 1106-Pré-visualização gpt-4, 0125-Pré-visualização GPT-4, turbo-2024-04-09 GPT-4-32K, 0613 GPT-35-TURBO, 0613 GPT-35-Turbo, 1106 GPT-35-Turbo, 0125 GPT-35-TURBO-16K, 0613
leste da Austrália - - - - -
Eastus - - - -
Eastus2 - - - -
FranceCentral - - - - - -
JapãoLeste - - - - - - - - -
Noruega Oriental - - - - - - - - - - -
Sul da Índia - - - - - - - - -
suécia central - -
UKSOUTH - - - - - -
Westus - - - - -
Westus3 - - - - - -

Modelo de aposentadoria

Para obter as informações mais recentes sobre modelos de aposentadoria, consulte o guia de aposentadoria modelo.

Observação

Os modelos Foundry vendidos diretamente pelo Azure também incluem todos os modelos Azure OpenAI. Para saber mais sobre esses modelos, alterne para a coleção de modelos do Azure OpenAI na parte superior deste artigo.

Modelos do Black Forest Labs vendidos diretamente pelo Azure

A coleção de modelos de geração de imagens da Black Forest Labs (BFL) inclui o FLUX.2 [pro] para geração e edição de imagens através de texto e prompts de imagem, o FLUX.1 Kontext [pro] para geração e edição em contexto, e o FLUX1.1 [pro] para geração texto-para-imagem.

Você pode processar esses modelos por meio da API do provedor de serviços BFL e por meio dos endpoints imagens/gerações e imagens/edições.

Modelo Digite o ponto de extremidade da API & Capabilities Tipo de implantação (disponibilidade da região) Tipo de projeto
FLUX.2-pro Geração de imagens
- API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-2-pro
- Entrada: texto e imagem (32.000 tokens e até 8 imagensi)
- Saída: Uma imagem
- Chamada de ferramenta: Não
- Formatos de resposta: Imagem (PNG e JPG)
- Características principais: Suporte multirreferência para até 8 imagensii; mais fundamentado no conhecimento do mundo real; maior flexibilidade de saída; Desempenho melhorado
- Parâmetros adicionais:(Apenas na API específica do fornecedor) Suporta todos os parâmetros.
- Norma global (todas as regiões) Fundição baseada em hub
FLUX.1-Kontext-pro Geração de imagens
- API de imagem: https://<resource-name>/openai/deployments/{deployment-id}/images/generations
e
https://<resource-name>/openai/deployments/{deployment-id}/images/edits

- API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-kontext-pro?api-version=preview
- Entrada: texto e imagem (5.000 tokens e 1 imagem)
- Saída: Uma imagem
- Chamada de ferramenta: Não
- Formatos de resposta: Imagem (PNG e JPG)
- Principais características: Consistência de caracteres, edição avançada
- Parâmetros adicionais:(Somente na API específica do provedor)seed, aspect ratio, input_image, prompt_unsampling, safety_tolerance, , output_format
- Norma global (todas as regiões) Fundição baseada em hub
FLUXO-1.1-pro Geração de imagens
- API de imagem: https://<resource-name>/openai/deployments/{deployment-id}/images/generations

- API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-pro-1.1?api-version=preview
- Entrada: texto (5.000 tokens e 1 imagem)
- Saída: Uma imagem
- Chamada de ferramenta: Não
- Formatos de resposta: Imagem (PNG e JPG)
- Principais características: Velocidade de inferência rápida, forte adesão imediata, preços competitivos, geração escalável
- Parâmetros adicionais:(Somente na API específica do provedor)width, height, prompt_unsampling, seed, safety_tolerance, , output_format
- Norma global (todas as regiões) Fundição baseada em hub
Modelo Digite o ponto de extremidade da API & Capabilities Tipo de implantação (disponibilidade da região)
FLUX.2-pro Geração de imagens
- API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-2-pro
- Entrada: texto (32.000 tokens e até 8imagens i)
- Saída: Uma imagem
- Chamada de ferramenta: Não
- Formatos de resposta: Imagem (PNG e JPG)
- Características principais: Suporte multirreferência para até 8 imagensii; mais fundamentado no conhecimento do mundo real; maior flexibilidade de saída; Desempenho melhorado
- Parâmetros adicionais:(Apenas na API específica do fornecedor) Suporta todos os parâmetros.
- Norma global (todas as regiões)
FLUX.1-Kontext-pro Geração de imagens
- API de imagem: https://<resource-name>/openai/deployments/{deployment-id}/images/generations
e
https://<resource-name>/openai/deployments/{deployment-id}/images/edits

- API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-kontext-pro?api-version=preview
- Entrada: texto e imagem (5.000 tokens e 1 imagem)
- Saída: Uma imagem
- Chamada de ferramenta: Não
- Formatos de resposta: Imagem (PNG e JPG)
- Principais características: Consistência de caracteres, edição avançada
- Parâmetros adicionais:(Somente na API específica do provedor)seed, aspect ratio, input_image, prompt_unsampling, safety_tolerance, , output_format
- Norma global (todas as regiões)
FLUX-1.1-pro Geração de imagens
- API de imagem: https://<resource-name>/openai/deployments/{deployment-id}/images/generations

- API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-pro-1.1?api-version=preview
- Entrada: texto (5.000 tokens e 1 imagem)
- Saída: Uma imagem
- Chamada de ferramenta: Não
- Formatos de resposta: Imagem (PNG e JPG)
- Principais características: Velocidade de inferência rápida, forte adesão imediata, preços competitivos, geração escalável
- Parâmetros adicionais:(Somente na API específica do provedor)width, height, prompt_unsampling, seed, safety_tolerance, , output_format
- Norma global (todas as regiões)

i,ii O suporte para múltiplas imagens de referência (até oito) está disponível para o FLUX.2[pro] através da API, mas não no playground. Consulte os seguintes exemplos de código para o FLUX.2[pro].

Exemplos de código para FLUX.2[pro]

Geração de imagens

  • Entrada: Texto
  • Saída: Uma imagem
curl -X POST https://<your-resource-name>.api.cognitive.microsoft.com/providers/blackforestlabs/v1/flux-2-pro?api-version… \ 
  -H "Content-Type: application/json" \ 
  -H "Authorization: Bearer {API_KEY}" \ 
  -d '{ 
      "model": "FLUX.2-pro" 
      "prompt": "A photograph of a red fox in an autumn forest", 
      "width": 1024, 
      "height": 1024, 
      "seed": 42, 
      "safety_tolerance": 2, 
      "output_format": "jpeg", 
    }' 

Edição de imagem

  • Entrada: Até oito imagens codificadas em 64 bits
  • Saída: Uma imagem
curl -X POST https://<your-resource-name>.api.cognitive.microsoft.com/providers/blackforestlabs/v1/flux-2-pro?api-version… \
  -H "Content-Type: application/json" \ 
  -H "Authorization: Bearer {API_KEY}" \ 
  -d '{ 
      "model": "FLUX.2-pro", 
      "prompt": "Apply a cinematic, moody lighting effect to all photos. Make them look like scenes from a sci-fi noir film", 
      "output_format": "jpeg", 
      "input_image" : "/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDA.......", 
      "input_image_2" : "iVBORw0KGgoAAAANSUhEUgAABAAAAAQACAIAAADwf........" 
    }' 

Veja esta coleção de modelos no portal Microsoft Foundry.

Modelos Cohere vendidos diretamente pela Azure

A família de modelos Cohere inclui vários modelos otimizados para diferentes casos de uso, incluindo completamento de chats, reclassificação e classificação de texto, e embeddings. Os modelos Cohere são otimizados para vários casos de uso que incluem raciocínio, sumarização e resposta a perguntas.

Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região) Tipo de projeto
Cohere-rerank-v4.0-pro Classificação de texto (reordenação) - Entrada: texto
- Saída: texto
- Línguas:en, fr, es, it, de, pt-br, ja, zh-cn, ar, vi, hi, ru, id, e nl
- Chamada de ferramenta: Não
- Formatos de resposta: JSON
- Norma global (todas as regiões)
- Computação gerida
Fundição baseada em hub
Cohere-rerank-v4.0-fast Classificação de texto (reordenação) - Entrada: texto
- Saída: texto
- Línguas:en, fr, es, it, de, pt-br, ja, zh-cn, ar, vi, hi, ru, id, e nl
- Chamada de ferramenta: Não
- Formatos de resposta: JSON
- Norma global (todas as regiões)
- Computação gerida
Fundição baseada em hub
Cohere-command-a chat-completion - Entrada: texto (131.072 tokens)
- Saída: texto (8.182 tokens)
- Línguas:en, fr, es, it, de, pt-br, ja, ko, zh-cne ar
- Ativação da ferramenta: Sim
- Formatos de resposta: Texto, JSON
- Norma global (todas as regiões) Fundição baseada em hub
incorporar-v-4-0 embeddings - Entrada: texto (512 tokens) e imagens (2 milhões de pixels)
- Saída: Vetor (256, 512, 1024, 1536 dimensão)
- Línguas:en, fr, es, it, de, pt-br, ja, ko, zh-cne ar
- Norma global (todas as regiões) Fundição baseada em hub
Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região)
Cohere-rerank-v4.0-pro Classificação de texto (reordenação) - Entrada: texto
- Saída: texto
- Línguas:en, fr, es, it, de, pt-br, ja, zh-cn, ar, vi, hi, ru, id, e nl
- Chamada de ferramenta: Não
- Formatos de resposta: JSON
- Norma global (todas as regiões)
- Computação sob gestão
Cohere-rerank-v4.0-fast Classificação de texto (reordenação) - Entrada: texto
- Saída: texto
- Línguas:en, fr, es, it, de, pt-br, ja, zh-cn, ar, vi, hi, ru, id, e nl
- Chamada de ferramenta: Não
- Formatos de resposta: JSON
- Norma global (todas as regiões)
- Computação sob gestão
Cohere-command-a chat-completion - Entrada: texto (131.072 tokens)
- Saída: texto (8.182 tokens)
- Línguas:en, fr, es, it, de, pt-br, ja, ko, zh-cne ar
- Ativação da ferramenta: Sim
- Formatos de resposta: Texto, JSON
- Norma global (todas as regiões)
embed-v-4-0 embeddings - Entrada: texto (512 tokens) e imagens (2 milhões de pixels)
- Saída: Vetor (256, 512, 1024, 1536 dimensão)
- Línguas:en, fr, es, it, de, pt-br, ja, ko, zh-cne ar
- Norma global (todas as regiões)

Consulte a coleção de modelos Cohere no portal Foundry.

Modelos DeepSeek vendidos diretamente pelo Azure

A família de modelos DeepSeek inclui vários modelos de raciocínio, que se destacam em tarefas de raciocínio através de um processo de treino passo a passo, como tarefas de linguagem, raciocínio científico e programação.

Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região) Tipo de projeto
DeepSeek-V3.2-Speciale chat-completion
(com conteúdo de fundamentação)
- Entrada: texto (128.000 tokens)
- Saída: (128.000 tokens)
- Línguas:en e zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto, JSON
- Norma global (todas as regiões) Fundição baseada em hub
DeepSeek-V3.2 chat-completion
(com conteúdo de fundamentação)
- Entrada: texto (128.000 tokens)
- Saída: (128.000 tokens)
- Línguas:en e zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto, JSON
- Norma global (todas as regiões) Fundição baseada em hub
DeepSeek-V3.1 chat-completion
(com conteúdo de fundamentação)
- Entrada: texto (131.072 tokens)
- Saída: (131.072 tokens)
- Línguas:en e zh
- Ativação da ferramenta: Sim
- Formatos de resposta: Texto, JSON
- Norma global (todas as regiões) Fundição baseada em hub
DeepSeek-R1-0528 chat-completion
(com conteúdo de fundamentação)
- Entrada: texto (163.840 tokens)
- Saída: (163.840 tokens)
- Línguas:en e zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto.
- Norma global (todas as regiões)
- Global provisionado (todas as regiões)
Fundição baseada em hub
DeepSeek-V3-0324 chat-completion - Entrada: texto (131.072 tokens)
- Saída: (131.072 tokens)
- Línguas:en e zh
- Ativação da ferramenta: Sim
- Formatos de resposta: Texto, JSON
- Norma global (todas as regiões)
- Global provisionado (todas as regiões)
Fundição baseada em hub
DeepSeek-R1 chat-completion
(com conteúdo de fundamentação)
- Entrada: texto (163.840 tokens)
- Saída: (163.840 tokens)
- Línguas:en e zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto.
- Norma global (todas as regiões)
- Global provisionado (todas as regiões)
Fundição baseada em hub
Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região)
DeepSeek-V3.2-Speciale chat-completion
(com conteúdo de fundamentação)
- Entrada: texto (128.000 tokens)
- Saída: (128.000 tokens)
- Línguas:en e zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto, JSON
- Norma global (todas as regiões)
DeepSeek-V3.2 chat-completion
(com conteúdo de fundamentação)
- Entrada: texto (128.000 tokens)
- Saída: (128.000 tokens)
- Línguas:en e zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto, JSON
- Norma global (todas as regiões)
DeepSeek-V3.1 chat-completion
(com conteúdo de fundamentação)
- Entrada: texto (131.072 tokens)
- Saída: (131.072 tokens)
- Línguas:en e zh
- Ativação da ferramenta: Sim
- Formatos de resposta: Texto, JSON
- Norma global (todas as regiões)
DeepSeek-R1-0528 chat-completion
(com conteúdo de fundamentação)
- Entrada: texto (163.840 tokens)
- Saída: (163.840 tokens)
- Línguas:en e zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto.
- Norma global (todas as regiões)
- Global provisionado (todas as regiões)
DeepSeek-V3-0324 chat-completion - Entrada: texto (131.072 tokens)
- Saída: (131.072 tokens)
- Línguas:en e zh
- Ativação da ferramenta: Sim
- Formatos de resposta: Texto, JSON
- Norma global (todas as regiões)
- Global provisionado (todas as regiões)
DeepSeek-R1 chat-completion
(com conteúdo de fundamentação)
- Entrada: texto (163.840 tokens)
- Saída: (163.840 tokens)
- Línguas:en e zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto.
- Norma global (todas as regiões)
- Global provisionado (todas as regiões)

Veja esta coleção de modelos no portal da Foundry.

Meta modelos vendidos diretamente pelo Azure

Os modelos e ferramentas Meta Llama são uma coleção de modelos de raciocínio generativo de texto e imagem de IA pré-treinados e ajustados. Os metamodelos variam em escala para incluir:

  • Modelos de linguagem reduzidos (SLMs), como os modelos Base e Instrução 1B e 3B para inferência em dispositivos e na periferia
  • Modelos de linguagem de grande porte médio (LLMs) como os modelos 7B, 8B e 70B Base e Instruct
  • Modelos de alto desempenho como o Meta Llama 3.1-405B Instruem para geração de dados sintéticos e casos de uso de destilação.
Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região) Tipo de projeto
Llama-4-Maverick-17B-128E-Instruct-FP8 chat-completion - Entrada: texto e imagens (1M tokens)
- Saída: texto (1M elementos)
- Línguas:ar, en, fr, de, hi, id, it, pt, es, , tlth, evi
- Chamada de ferramenta: Não
- Formatos de resposta: Texto
- Norma global (todas as regiões) Fundição baseada em hub
Llama-3.3-70B-Instruct chat-completion - Entrada: texto (128.000 tokens)
- Saída: texto (8,192 tokens)
- Línguas:en, de, fr, it, pt, hi, ese th
- Chamada de ferramenta: Não
- Formatos de resposta: Texto
- Norma global (todas as regiões) Fundição baseada em hub
Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região)
Llama-4-Maverick-17B-128E-Instruct-FP8 chat-completion - Entrada: texto e imagens (1M tokens)
- Saída: texto (1M elementos)
- Línguas:ar, en, fr, de, hi, id, it, pt, es, , tlth, evi
- Chamada de ferramenta: Não
- Formatos de resposta: Texto
- Norma global (todas as regiões)
Llama-3.3-70B-Instruct chat-completion - Entrada: texto (128.000 tokens)
- Saída: texto (8,192 tokens)
- Línguas:en, de, fr, it, pt, hi, ese th
- Chamada de ferramenta: Não
- Formatos de resposta: Texto
- Norma global (todas as regiões)

Veja esta coleção de modelos no portal da Foundry. Você também pode encontrar vários modelos Meta disponíveis de parceiros e comunidade.

Modelos da Microsoft vendidos diretamente pelo Azure

Os modelos Microsoft incluem vários grupos de modelos, como Model Router, modelos MAI, modelos Phi, modelos de IA na saúde e outros. Consulte a coleção de modelos Microsoft no portal Foundry. Você também pode encontrar vários modelos da Microsoft disponíveis em parceiros e comunidade.

Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região) Tipo de projeto
model-router1 chat-completion Mais detalhes na visão geral do router modelo.
- Entrada: texto, imagem
- Saída: texto (o número máximo de tokens de saídavaria 2)
Janela de contexto: 200.0003
- Idiomas:en
- Padrão global (Leste dos EUA 2, Suécia Central)
- Zona de Dados padrão4 (Leste dos EUA 2, Suécia Central)
Fundição baseada em hub
MAI-DS-R1 chat-completion
(com conteúdo de fundamentação)
- Entrada: texto (163.840 tokens)
- Saída: (163.840 tokens)
- Línguas:en e zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto.
- Norma global (todas as regiões) Fundição baseada em hub
Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região)
model-router1 chat-completion Mais detalhes na visão geral do router modelo.
- Entrada: texto, imagem
- Saída: texto (o número máximo de tokens de saídavaria 2)
Janela de contexto: 200.0003
- Idiomas:en
- Padrão global (Leste dos EUA 2, Suécia Central)
- Zona de Dados padrão4 (Leste dos EUA 2, Suécia Central)
MAI-DS-R1 chat-completion
(com conteúdo de fundamentação)
- Entrada: texto (163.840 tokens)
- Saída: (163.840 tokens)
- Línguas:en e zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto.
- Norma global (todas as regiões)

1Versão do modelo do router2025-11-18 Versões anteriores (2025-08-07 e 2025-05-19) também estão disponíveis.

2Os tokens máximos de saída variam para modelos subjacentes no roteador de modelos. Por exemplo, 32.768 (GPT-4.1 series), 100.000 (o4-mini), 128.000 (gpt-5 reasoning models) e 16.384 (gpt-5-chat).

3Janelas de contexto maiores são compatíveis com alguns dos modelos subjacentes do Model Router. Isto significa que uma chamada API com um contexto maior só tem sucesso se o prompt for encaminhado para um desses modelos. Caso contrário, a chamada falhará.

4 A faturação para a implementação de routers modelo padrão de Zona de Dados começa não antes de 1 de novembro de 2025.

Modelos Mistral vendidos diretamente pelo Azure

Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região) Tipo de projeto
Mistral-Grande-3 chat-completion - Entrada: texto, imagem
- Saída: texto
- Línguas:en, fr, de, es, it, pt, nl, zh, ja, koe ar
- Ativação da ferramenta: Sim
- Formatos de resposta: Texto, JSON
- Padrão global (Oeste dos EUA 3) Fundição
mistral-documento-ai-2505 Imagem para texto - Entrada: imagem ou páginas PDF (30 páginas, máximo 30MB arquivo PDF)
- Saída: texto
- Idiomas:en
- Chamada de ferramenta: não
- Formatos de resposta: Texto, JSON, Markdown
- Norma global (todas as regiões)
- Padrão de zona de dados (EUA e UE)
Fundição
Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região)
Mistral-Large-3 chat-completion - Entrada: texto, imagem
- Saída: texto
- Línguas:en, fr, de, es, it, pt, nl, zh, ja, koe ar
- Ativação da ferramenta: Sim
- Formatos de resposta: Texto, JSON
- Padrão global (Oeste dos EUA 3)
mistral-document-ai-2505 Imagem para texto - Entrada: imagem ou páginas PDF (30 páginas, máximo 30MB arquivo PDF)
- Saída: texto
- Idiomas:en
- Chamada de ferramenta: não
- Formatos de resposta: Texto, JSON, Markdown
- Norma global (todas as regiões)
- Padrão de zona de dados (EUA e UE)

Consulte a coleção de modelos Mistral no portal da Fundição. Você também pode encontrar vários modelos Mistral disponíveis de parceiros e comunidade.

Modelos de IA Moonshot vendidos diretamente pela Azure

Os modelos de IA Moonshot incluem o Kimi K2 Thinking, a versão mais recente e capaz do modelo de pensamento open-source. O Kimi K2 foi construído como um agente pensante que raciocina passo a passo enquanto invoca ferramentas de forma dinâmica. Estabelece um novo estado da arte no Exame Final da Humanidade (HLE), BrowseComp e outros benchmarks, ao aumentar significativamente a profundidade do raciocínio em múltiplos passos e manter o uso estável de ferramentas ao longo de 200–300 chamadas sequenciais.

As principais capacidades do Pensamento Kimi K2 incluem:

  • Pensamento Profundo e Orquestração de Ferramentas: Treinado de ponta a ponta para intercalar raciocínio em cadeia de pensamento com chamadas de funções, permitindo trabalhos autónomos de investigação, programação e escrita que duram centenas de passos sem desvios.
  • Quantização Nativa INT4: O Treino Quantization-Aware (QAT) é utilizado na fase pós-treino para alcançar uma aceleração 2x sem perdas em modo de baixa latência.
  • Agência Long-Horizon Estável: Mantém um comportamento coerente orientado a objetivos ao longo de até 200–300 invocações consecutivas de ferramentas, superando modelos anteriores que degradam após 30–50 passos.
Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região) Tipo de projeto
Pensamento Kimi-K2 chat-completion
(com conteúdo de fundamentação)
- Entrada: texto (262.144 tokens)
- Saída: texto (262.144 caracteres)
- Línguas:en e zh
- Ativação da ferramenta: Sim
- Formatos de resposta: Texto
- Norma global (todas as regiões) Fundição baseada em hub
Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região)
Kimi-K2-Thinking chat-completion
(com conteúdo de fundamentação)
- Entrada: texto (262.144 tokens)
- Saída: texto (262.144 caracteres)
- Línguas:en e zh
- Ativação da ferramenta: Sim
- Formatos de resposta: Texto
- Norma global (todas as regiões)

Veja esta coleção de modelos no portal da Foundry.

Modelos xAI vendidos diretamente pelo Azure

Os modelos Grok da xAI na Foundry Models incluem um conjunto diversificado de modelos concebidos para se destacar em vários domínios empresariais com diferentes capacidades e faixas de preço, incluindo:

  • O Grok 3, um modelo não-racional pré-treinado no datacenter Colossus, é ajustado para cenários empresariais, como extração de dados, codificação e resumo de texto, com capacidades excecionais para seguir instruções. Ele suporta uma janela de contexto com 131.072 tokens, permitindo lidar com entradas extensas, mantendo coerência e profundidade, e é hábil em estabelecer ligações entre domínios e idiomas.

  • O Grok 3 Mini é um modelo de raciocínio leve treinado para lidar com problemas de agente, codificação, matemática e ciências profundas com computação em tempo de teste. Ele também suporta uma janela de contexto de token 131.072 para entender bases de código e documentos corporativos, e se destaca no uso de ferramentas para resolver problemas lógicos complexos em ambientes novos, oferecendo traços de raciocínio brutos para inspeção do usuário com orçamentos de pensamento ajustáveis.

  • Grok Code Fast 1, um modelo de raciocínio rápido e eficiente projetado para uso em aplicações de codificação agente. Ele foi pré-treinado em uma mistura de dados focada em codificação e, em seguida, pós-treinado em demonstrações de várias tarefas de codificação e uso de ferramentas, bem como demonstrações de comportamentos de recusa corretos com base na política de segurança da xAI. O registo é necessário para aceder ao modelo grok-code-fast-1.

  • Grok 4 Fast, um modelo de linguagem otimizado para eficiência que oferece recursos de raciocínio quase Grok 4 com latência e custo significativamente mais baixos, e pode ignorar totalmente o raciocínio para aplicações ultrarrápidas. Ele é treinado para o uso seguro e eficaz da ferramenta, com comportamentos de recusa integrados, um prompt fixo do sistema de aplicação de segurança e filtros de entrada para evitar o uso indevido.

  • O Grok 4 é o mais recente modelo de raciocínio da xAI com raciocínio avançado e recursos de uso de ferramentas, permitindo alcançar um novo desempenho de última geração em benchmarks acadêmicos e industriais desafiadores. O registo é necessário para aceder ao modelo grok-4. Ao contrário dos modelos rápidos do Grok 4 (raciocínio e não-raciocínio), o Grok 4 não suporta entrada de imagem.

Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região) Tipo de projeto
Grok-4 chat-completion - Entrada: texto (256.000 tokens)
- Saída: texto (8,192 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Norma global (todas as regiões) Fundição baseada em hub
grok-4-raciocínio rápido chat-completion - Entrada: texto, imagem (2.000.000 tokens)
- Saída: texto (2.000.000 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Norma global (todas as regiões)
- Padrão de zona de dados (EUA)
Fundição baseada em hub
grok-4-rápido-não-raciocínio chat-completion - Entrada: texto, imagem (2.000.000 tokens)
- Saída: texto (2.000.000 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Norma global (todas as regiões)
- Padrão de zona de dados (EUA)
Fundição baseada em hub
grok-código-fast-1 chat-completion - Entrada: texto (256.000 tokens)
- Saída: texto (8,192 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Norma global (todas as regiões) Fundição baseada em hub
Grok-3 chat-completion - Entrada: texto (131.072 tokens)
- Saída: texto (131,072 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Norma global (todas as regiões)
- Padrão de zona de dados (EUA)
Fundição baseada em hub
grok-3-mini chat-completion - Entrada: texto (131.072 tokens)
- Saída: texto (131,072 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Norma global (todas as regiões)
- Padrão de zona de dados (EUA)
Fundição baseada em hub
Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região)
grok-4 chat-completion - Entrada: texto, imagem (256.000 tokens)
- Saída: texto (8,192 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Norma global (todas as regiões)
grok-4-fast-reasoning chat-completion - Entrada: texto, imagem (2.000.000 tokens)
- Saída: texto (2.000.000 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Norma global (todas as regiões)
- Padrão de zona de dados (EUA)
grok-4-fast-non-reasoning chat-completion - Entrada: texto, imagem (2.000.000 tokens)
- Saída: texto (2.000.000 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Norma global (todas as regiões)
- Padrão de zona de dados (EUA)
grok-code-fast-1 chat-completion - Entrada: texto (256.000 tokens)
- Saída: texto (8,192 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Norma global (todas as regiões)
grok-3 chat-completion - Entrada: texto (131.072 tokens)
- Saída: texto (131,072 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Norma global (todas as regiões)
- Padrão de zona de dados (EUA)
grok-3-mini chat-completion - Entrada: texto (131.072 tokens)
- Saída: texto (131,072 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Norma global (todas as regiões)
- Padrão de zona de dados (EUA)

Veja a coleção de modelos xAI no portal Foundry.

Disponibilidade da região do modelo por tipo de implantação

A Foundry Models oferece opções para a estrutura de hospedagem que se adapta ao seu negócio e padrões de uso. O serviço oferece dois tipos principais de implantação:

  • Padrão: Tem uma opção de implantação global, roteando o tráfego globalmente para fornecer maior taxa de transferência.
  • Provisionado: também possui uma opção de implantação global, permitindo ao utilizador adquirir e implantar unidades de largura de banda provisionadas na infraestrutura global do Azure.

Todas as implantações executam as mesmas operações de inferência, mas o faturamento, a escala e o desempenho diferem. Para mais informações sobre tipos de implantação, consulte Tipos de implantação em Modelos Foundry.

Disponibilidade do modelo Padrão Global

Região DeepSeek-R1-0528 DeepSeek-R1 DeepSeek-V3-0324 DeepSeek-V3.1 FLUX.1-Kontext-pro FLUXO-1.1-pro Grok-4 grok-4-raciocínio rápido grok-4-rápido-não-raciocínio grok-código-fast-1 Grok-3 grok-3-mini Llama-4-Maverick-17B-128E-Instruct-FP8 Llama-3.3-70B-Instruct MAI-DS-R1 mistral-documento-ai-2505
leste da Austrália
Brasil Sul
Canadá Leste
Eastus
Eastus2
FranceCentral
Alemanha Oeste Central
ItáliaNorte
JapãoLeste
Coreia Central
northcentralus
Noruega Oriental
Polónia Central
southafricanorth
southcentralus
Sul da Índia
spaincentral
suécia central
suíçanorte
switzerlandwest
uaenorth
UKSOUTH
Europa Ocidental
Westus
Westus3

Modelos abertos e personalizados

O catálogo de modelos oferece uma seleção maior de modelos de uma ampla gama de fornecedores. Para estes modelos, não pode usar a opção de implementação padrão nos recursos do Microsoft Foundry, onde os modelos são fornecidos como APIs. Em vez disso, para implantar esses modelos, talvez seja necessário hospedá-los em sua infraestrutura, criar um hub de IA e fornecer a cota de computação subjacente para hospedar os modelos.

Além disso, estes modelos podem ser de acesso aberto ou protegidos por IP. Em ambos os casos, tens de os implementar em ofertas de computação gerida no Foundry. Para começar, consulte o guia Como implantar na computação gerenciada.