Implantar modelos usando o Serviço de Modelo de IA do Mosaico

Este artigo descreve o Mosaic AI Model Serving, a solução do Databricks para implantar modelos de IA e ML para serviço em tempo real e inferência em lote.

O que é o Mosaic AI Model Serving?

O Mosaic AI Model Serving fornece uma interface unificada para implantar, controlar e consultar modelos de IA para inferência em tempo real e em lote. Cada modelo que você atende está disponível como uma API REST que você pode integrar ao seu aplicativo Web ou cliente.

O Serviço de Modelo fornece um serviço altamente disponível e de baixa latência para implantar modelos. O serviço expande ou reduz a escala automaticamente para atender às alterações de demanda, reduzindo custos com infraestrutura e otimizando latência e desempenho. Essa funcionalidade usa computação sem servidor. Consulte a página de preços do Model Serving para obter mais detalhes.

O Serviço de Modelo oferece uma API REST unificada e uma API de Implantação do MLflow para tarefas de CRUD e consulta. Além disso, ele fornece uma única interface do usuário para gerenciar todos os seus modelos e seus respectivos pontos de serviço. Você também pode acessar modelos diretamente do SQL usando o AI Functions para facilitar a integração aos fluxos de trabalho de análise.

As Funções de IA e o Model Serving são fortemente integrados para cenários de inferência em lotes. Você pode utilizar uma das funções de IA específicas da tarefa ou ai-query em seus pipelines de inferência em lote. Se você optar por usar um modelo pré-provisionado hospedado e gerenciado pelo Databricks, não será necessário configurar um endpoint de serviço de modelo você mesmo.

Confira os seguintes guias para começar:

Para executar a inferência em lotes, consulte Aplicar IA em dados usando o Azure Databricks AI Functions.
Para obter um tutorial introdutório sobre como servir modelos personalizados no Azure Databricks para inferência em tempo real, consulte Tutorial: Implantar e consultar um modelo personalizado.
Para obter um tutorial de introdução sobre como consultar um modelo de base no Databricks para inferência em tempo real, veja Introdução à consulta de LLMs no Databricks.

Modelos que você pode implantar

O serviço de modelo dá suporte à inferência em tempo real e em lote para os seguintes tipos de modelo:

Modelos personalizados. Estes são modelos python empacotados no formato MLflow. Eles podem ser registrados no Catálogo do Unity ou no registro de modelo do espaço de trabalho. Os exemplos incluem modelos de transformador scikit-learn, XGBoost, PyTorch e Hugging Face.
- O atendimento de agentes tem suporte como um modelo personalizado. Consulte Implantar um agente para aplicativos de IA generativos
Modelos de base.
- Modelos de base hospedados pelo Databricks , como Meta Llama. Esses modelos estão disponíveis usando APIs do Foundation Model. Esses modelos são arquiteturas de modelos base curadas que suportam inferência otimizada. Os modelos base, como Meta-Llama-3.3-70B-Instruct, GTE-Large e Mistral-7B estão disponíveis para uso imediato com os preços de pagamento por token e as cargas de trabalho que exigem garantias de desempenho e variantes de modelo ajustadas podem ser implantadas com a taxa de transferência provisionada.
- Modelos de fundação hospedados fora do Databricks , como GPT-4 do OpenAI. Esses modelos são acessíveis usando modelos externos. Os pontos de extremidade que fornecem esses modelos podem ser controlados centralmente a partir do Azure Databricks, para que você possa simplificar o uso e o gerenciamento de vários provedores de LLM, como OpenAI e Antropic, dentro da sua organização.

Observação

Você pode interagir com grandes modelos de linguagem suportados usando o Playground de IA. O Playground de IA é um ambiente semelhante ao chat em que você pode testar, solicitar e comparar LLMs. Essa funcionalidade está disponível no workspace do Azure Databricks.

Por que usar o Serviço de Modelo?

Implantar e consultar quaisquer modelos: o fornecimento de modelo fornece uma interface unificada para que você possa gerenciar todos os modelos em apenas um local e consultá-los com apenas uma API, independentemente de eles estarem hospedados no Databricks ou externamente. Essa abordagem simplifica o processo de experimentar, personalizar e implantar modelos em produção em várias nuvens e provedores.
Personalize modelos de modo seguro com seus dados privados: criado com base na plataforma Data Intelligence, o Model Serving simplifica a integração de recursos e inserções em modelos por meio da integração nativa com a Databricks Feature Store e o Mosaic AI Vector Search. Para maior precisão e compreensão contextual, modelos podem ser ajustados com dados proprietários e implantados sem esforço no Model Serving.
Controlar e monitorar modelos: A interface Serving permite que você gerencie todos os endpoints de modelo centralmente em um único lugar, incluindo aqueles hospedados externamente. Você pode gerenciar permissões, acompanhar e definir limites de uso e monitorar a qualidade de todos os tipos de modelos usando o Gateway de IA. Isso permite que você democratize o acesso ao SaaS e aos LLMs abertos dentro da sua organização, garantindo que os limites apropriados estejam em funcionamento.
Reduza o custo com inferência otimizada e dimensionamento rápido: o Databricks implementou uma variedade de otimizações para garantir que você obtenha a melhor taxa de transferência e latência para modelos grandes. Os pontos de extremidade são escalados ou reduzidos verticalmente de forma automática para atender às alterações de demanda, economizando custos de infraestrutura ao otimizar o desempenho de latência. Monitorar os custos do Serviço de Modelo.
- Para cargas de trabalho que são sensíveis à latência ou envolvem um alto número de consultas por segundo, consulte Pontos de Extremidade de Serviço de Modelo para Produção para estratégias de otimização abrangentes. Entre em contato com sua equipe de conta do Databricks para garantir que seu workspace esteja habilitado para alta escalabilidade.

Traga confiabilidade e segurança para o fornecimento de modelo: o fornecimento de modelo foi projetado para uso de produção de alta disponibilidade e baixa latência e pode dar suporte a mais de 25 mil consultas por segundo com uma latência de sobrecarga inferior a 50 ms. As cargas de trabalho são protegidas por várias camadas de segurança, garantindo um ambiente seguro e confiável até mesmo para as tarefas mais sensíveis. Você pode controlar o acesso à rede aos pontos de extremidade de Serviço de Modelo configurando políticas de rede. Consulte Gerenciar políticas de rede para controle de saída sem servidor.

Observação

O Serviço de Modelos não aplica patches de segurança em imagens de modelos existentes, devido ao risco de desestabilização nas implantações em produção. Uma nova imagem de modelo criada a partir de uma nova versão de modelo conterá os patches mais recentes. Entre em contato com a equipe da sua conta do Databricks para obter mais informações.

Requisitos

Modelo registrado no Catálogo do Unity ou no Registro de Modelo do Workspace.
Permissões nos modelos registrados, conforme descrito em ACLs do Ponto de extremidade do Serviço de Modelo.
- MLflow 1.29 ou superior.
Se você estiver usando o Link Privado do Azure para cumprir as regras de entrada relacionadas à rede configuradas no workspace, o Link Privado do Azure é suportado apenas para endpoints de serviço de modelos que usam taxa de transferência provisionada ou endpoints que atendem a modelos personalizados. Consulte Configurar a conectividade privada com os recursos do Azure.
Direitos do espaço de trabalho configurados. Consulte Gerenciar direitos.

Habilitar o Serviço de Modelo no seu workspace

Nenhuma etapa adicional é necessária para habilitar o Serviço de Modelo em seu workspace.

Limitações e disponibilidade de região

O Mosaic AI Model Serving impõe limites padrão para garantir um desempenho confiável. Veja Limites e regiões do Serviço de Modelo. Se tiver comentários sobre esses limites ou um ponto final numa região sem suporte, contacte a sua equipa de conta Databricks.

Proteção de dados no Serviço de Modelo

O Databricks leva a segurança de dados a sério. O Databricks entende a importância dos dados que você analisa usando o Mosaic AI Model Serving e implementa os seguintes controles de segurança para proteger seus dados.

Cada solicitação do cliente para Model Serving é logicamente isolada, autenticada e autorizada.
O Mosaic AI Model Serving criptografa todos os dados inativos (AES-256) e em trânsito (TLS 1.2+).

Para todas as contas pagas, o Mosaic AI Model Serving não usa entradas de usuário enviadas ao serviço ou saídas do serviço para treinar modelos ou melhorar os serviços do Databricks.

Para todas as cargas de trabalho de Serviço de Modelo de IA do Mosaico, o Databricks retém logs de build de contêiner por até trinta (30) dias e dados de métricas por até quatorze (14) dias.

Para APIs de Modelo do Databricks Foundation, como parte do fornecimento do serviço, o Databricks pode processar e armazenar temporariamente entradas e saídas para fins de prevenção, detecção e mitigação de abusos ou usos prejudiciais. Suas entradas e saídas são isoladas das de outros clientes, armazenadas na mesma região que seu workspace por até trinta (30) dias e só podem ser acessadas para detectar e responder a questões de segurança ou abuso.

As APIs do Modelo de Base são um Serviço Designado do Databricks, o que significa que elas aderem aos limites de residência de dados conforme implementado pelo Databricks Geos.

Recursos adicionais

Comentários

Esta página foi útil?

Last updated on 2025-09-22

Compartilhar via

Implantar modelos usando o Serviço de Modelo de IA do Mosaico

O que é o Mosaic AI Model Serving?

Modelos que você pode implantar

Por que usar o Serviço de Modelo?

Requisitos

Habilitar o Serviço de Modelo no seu workspace

Limitações e disponibilidade de região

Proteção de dados no Serviço de Modelo

Recursos adicionais

Comentários

Recursos adicionais