Compartilhar via


Limites e regiões do Serviço de Modelo

Este artigo resume as limitações e a disponibilidade regional para o Serviço de Modelos do Mosaic AI e os tipos de endpoints suportados.

Limites de recursos e carga

O Serviço de Modelo do Mosaic AI impõe limites padrão para garantir um desempenho confiável. Se você tiver comentários sobre esses limites, entre em contato com sua equipe de conta do Databricks.

A tabela a seguir resume as limitações de conteúdo e recursos para pontos de extremidade de serviço de modelo.

Recurso Granularidade Limite
Tamanho da carga Por solicitação 16 MB. Para pontos de extremidade que atendem modelos de base, modelos externos ou agentes de IA, o limite é de 4 MB.
Tamanho da solicitação/resposta Por solicitação Nenhuma solicitação/resposta acima de 1 MB não será registrada.
Consultas por segundo (QPS) Por área de trabalho 200. Para QPS mais alto, habilite a otimização de rota.
Duração da execução do modelo Por solicitação 297 segundos
Uso de memória do modelo de ponto de extremidade da CPU Por ponto de extremidade 4 GB
Uso de memória do modelo de ponto de extremidade da GPU Por ponto de extremidade Maior ou igual à memória de GPU atribuída, depende do tamanho da carga de trabalho da GPU
Concorrência provisionada Por modelo e por espaço de trabalho Simultaneidade de 200. Pode ser aumentado entrando em contato com sua equipe de conta do Databricks.
Latência de sobrecarga Por solicitação Menos de 50 milissegundos
Scripts de inicialização Não há suporte para scripts de inicialização.
Limites de taxa de APIs do Modelo de Fundação Por área de trabalho Consulte os limites de taxa e as cotas das APIs do Modelo do Foundation para obter informações detalhadas sobre limites de taxa de transferência provisionadas e pagamento por token.

Limitações de rede e segurança

  • Os pontos de extremidade do Serviço de Modelo são protegidos por controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no espaço de trabalho, como listas de IPs permitidos e Link Privado.
  • A conectividade privada (como o Link Privado do Azure) só tem suporte para pontos de extremidade de serviço de modelo que usam taxa de transferência provisionada ou pontos de extremidade que atendem a modelos personalizados.
  • Por padrão, o Model Serving não dá suporte ao Link Privado para pontos de extremidade externos (como o Azure OpenAI). O suporte para essa funcionalidade é avaliado e implementado por região. Entre em contato com a equipe da sua conta do Azure Databricks para obter mais informações.
  • Model Serving não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização nas implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão de modelo conterá os patches mais recentes. Entre em contato com a equipe da sua conta do Databricks para obter mais informações.

Padrões de perfil de segurança de conformidade: cargas de trabalho de CPU

A tabela a seguir lista os padrões de conformidade de perfil de segurança compatíveis para a funcionalidade central de Serviço de Modelos em cargas de trabalho de CPU.

Observação

Esses padrões de conformidade exigem que os contêineres em serviço sejam construídos nos últimos 30 dias. O Databricks recria automaticamente contêineres desatualizados em seu nome. No entanto, se esse trabalho automatizado falhar, uma mensagem de log de eventos como a seguinte aparecerá e fornecerá orientação sobre como garantir que seus endpoints permaneçam dentro dos requisitos de conformidade:

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."

Região Localização HIPAA HITRUST PCI-DSS IRAP CCCS Médio (Protegido B) Cyber Essentials Plus do Reino Unido
australiacentral AustraliaCentral            
australiacentral2 AustraliaCentral2            
australiaeast AustraliaEast      
australiasoutheast AustráliaSudeste            
brazilsouth BrasilSul      
canadacentral Canadá Central      
canadaeast CanadáLeste            
centralindia CentralIndia      
centralus CentralUS      
chinaeast2 ChinaEast2            
chinaeast3 ChinaEast3            
chinanorth2 ChinaNorth2            
chinanorth3 ChinaNorth3            
eastasia EastAsia      
eastus EastUS      
eastus2 EastUS2      
francecentral FranceCentral      
germanywestcentral Alemanha Oeste Central      
japaneast JapanEast      
japanwest JapanWest            
koreacentral KoreaCentral      
mexicocentral MexicoCentral            
northcentralus NorthCentralUS      
northeurope NorthEurope      
norwayeast NoruegaLeste            
qatarcentral QatarCentral            
southafricanorth África do Sul Norte            
southcentralus SouthCentralUS      
southeastasia Sudeste Asiático      
southindia Sul da Índia            
swedencentral SwedenCentral      
switzerlandnorth SuíçaNorte      
switzerlandwest SuíçaOeste            
uaenorth UaeNorth      
uksouth UKSouth    
ukwest UKWest            
westcentralus WestCentralUS            
westeurope WestEurope      
westindia WestIndia            
westus OesteEUA      
westus2 WestUS2      
westus3 WestUS3      

Limites de taxa das APIs do Modelo de Base

Para obter informações detalhadas sobre AS APIs do Foundation Model, consulte:

Disponibilidade de região

Observação

Se você precisar de um ponto de extremidade em uma região sem suporte, entre em contato com a equipe da sua conta do Azure Databricks.

Se o workspace for implantado em uma região que oferece suporte ao serviço de modelo, mas é atendido por um plano de controle em uma região sem suporte, o workspace não oferece suporte ao serviço de modelo. Se você tentar usar o serviço de modelo em tal espaço de trabalho, verá uma mensagem de erro informando que seu espaço de trabalho não é suportado. Entre em contato com a equipe da sua conta do Azure Databricks para obter mais informações.

Para obter mais informações sobre a disponibilidade regional de cada recurso de Serviço de Modelo, consulte a disponibilidade de recursos de serviço de modelo.

Para saber a disponibilidade da região do modelo básico hospedado pelo Databricks, consulte Modelos básicos hospedados no Databricks.