Partilhar via


Modelo Limites de serviço e regiões

Este artigo resume as limitações e a disponibilidade da região para o Mosaic AI Model Serving e os tipos de endpoint suportados.

Limites de recursos e carga útil

O Mosaic AI Model Serving impõe limites padrão para garantir um desempenho confiável. Se você tiver comentários sobre esses limites, entre em contato com sua equipe de conta Databricks.

A tabela a seguir resume as limitações de recursos e carga de dados para os endpoints de serviço do modelo.

Caraterística Granularidade Limite
Tamanho da carga útil Por pedido 16 MB. Para endpoints que servem modelos de fundação, modelos externos ou agentes de IA , o limite é de 4 MB.
Tamanho do pedido/resposta Por pedido Qualquer pedido/resposta superior a 1 MB não será registado.
Consultas por segundo (QPS) Por espaço de trabalho 200. Para QPS mais altos, habilite a otimização de rotas.
Duração da execução do modelo Por pedido 297 segundos
Uso de memória do modelo endpoint da CPU Por endpoint 4GB
Uso de memória do modelo de GPU de ponto final Por endpoint Maior ou igual à memória GPU atribuída, depende do tamanho da carga de trabalho da GPU
Concorrência provisionada Por modelo e por espaço de trabalho 200 simultaneidade. Pode ser aumentado entrando em contacto com a sua equipa de conta Databricks.
Latência de sobrecarga Por pedido Menos de 50 milissegundos
Scripts de inicialização Não há suporte para scripts de inicialização.
Limites de requisição de APIs de modelos fundacionais Por espaço de trabalho Consulte Limites de taxa e cotas de APIs do Modelo de Base para obter informações detalhadas sobre os limites de taxa de transferência provisionados e de pagamento por token.

Limitações de rede e segurança

  • Os pontos de extremidade do Model Serving são protegidos pelo controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no espaço de trabalho, como listas de permissões de IP e Link Privado.
  • A conectividade privada (como o Azure Private Link) só é suportada para pontos de extremidade de serviço de modelos que usam largura de banda provisionada ou pontos de extremidade que servem modelos personalizados.
  • Por padrão, o Serviço de Modelo não oferece suporte a ligação privada para pontos de extremidade externos (como o Azure OpenAI). O suporte para esta funcionalidade é avaliado e implementado por região. Entre em contato com sua equipe de conta do Azure Databricks para obter mais informações.
  • O Model Serving não fornece patches de segurança para imagens de modelo existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com sua equipe de conta Databricks para obter mais informações.

Padrões de perfil de segurança de conformidade: cargas de trabalho da CPU

A tabela a seguir lista os padrões de conformidade de perfil de segurança suportados para a funcionalidade principal de Serviço de Modelo em cargas de trabalho de CPU.

Nota

Esses padrões de conformidade exigem que os contêineres servidos sejam construídos nos últimos 30 dias. O Databricks reconstrói automaticamente contêineres desatualizados em seu nome. No entanto, se esse trabalho automatizado falhar, uma mensagem de log de eventos como a seguinte aparecerá e fornecerá orientação sobre como garantir que seus endpoints cumpram os requisitos de conformidade.

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."

Região Localização HIPAA HITRUST PCI-DSS IRAP CCCS Médio (Protegido B) Reino Unido Cyber Essentials Plus
australiacentral AustráliaCentral            
australiacentral2 AustráliaCentral2            
australiaeast AustráliaLeste      
australiasoutheast Austrália Sudeste            
brazilsouth Brasil Sul      
canadacentral CanadáCentral      
canadaeast CanadáLeste            
centralindia Índia Central      
centralus Região Central dos EUA      
chinaeast2 ChinaEast2            
chinaeast3 ChinaLeste3            
chinanorth2 ChinaNorte2            
chinanorth3 ChinaNorte3            
eastasia Ásia Oriental      
eastus Leste dos EUA      
eastus2 LesteUS2      
francecentral FrançaCentral      
germanywestcentral AlemanhaWestCentral      
japaneast JapãoLeste      
japanwest JapãoOeste            
koreacentral CoreiaCentral      
mexicocentral MéxicoCentral            
northcentralus Centro-Norte dos EUA      
northeurope Norte da Europa      
norwayeast Noruega Este            
qatarcentral QatarCentral            
southafricanorth África do SulNorte            
southcentralus Centro-Sul dos EUA      
southeastasia Sudeste Asiático      
southindia Sul da Índia            
swedencentral SuéciaCentral      
switzerlandnorth Suíça Norte      
switzerlandwest SuíçaOeste            
uaenorth UAENorth      
uksouth UKSouth    
ukwest UKWest            
westcentralus WestCentralUS            
westeurope Europa Ocidental      
westindia Índia Ocidental            
westus Oeste dos EUA      
westus2 OesteUS2      
westus3 OesteUS3      

Limites das APIs do Modelo de Fundação

Para obter informações detalhadas sobre APIs de modelo de fundação, consulte:

Disponibilidade da região

Nota

Caso necessite de um endpoint numa região sem suporte, entre em contacto com a equipa de conta do Azure Databricks.

Se o espaço de trabalho for implantado em uma região que ofereça suporte ao serviço de modelo, mas seja servido por um plano de controle em uma região sem suporte, o espaço de trabalho não suportará o serviço de modelo. Se o utilizador tentar utilizar a disponibilização de modelos num tal espaço de trabalho, verá uma mensagem de erro indicando que esse espaço de trabalho não é suportado. Entre em contato com sua equipe de conta do Azure Databricks para obter mais informações.

Para obter mais informações sobre a disponibilidade regional de cada recurso de serviço de modelo, consulte Disponibilidade de recursos de serviço de modelo.

Para saber a disponibilidade da região do modelo de base hospedado pelo Databricks, consulte Modelos de base hospedados no Databricks.