Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Este artigo descreve o Mosaic AI Model Serving, a solução Databricks para implantar modelos de IA e ML para serviço em tempo real e inferência em lote.
O que é o Mosaic AI Model Serving?
O Mosaic AI Model Serving fornece uma interface unificada para implantar, governar e consultar modelos de IA para inferência em tempo real e em lote. Cada modelo que você atende está disponível como uma API REST que você pode integrar em seu aplicativo Web ou cliente.
O Model Serving fornece um serviço altamente disponível e de baixa latência para a implantação de modelos. O serviço aumenta ou diminui automaticamente para atender às mudanças de demanda, economizando custos de infraestrutura e otimizando o desempenho de latência. Essa funcionalidade usa computação sem servidor. Consulte a página de preços do Model Serving para obter mais detalhes.
O Model Serving oferece uma API REST unificada e uma API de implantação MLflow para tarefas CRUD e de consulta. Além disso, ele fornece uma única interface para gerir todos os seus modelos e os seus respetivos endpoints de serviço. Você também pode acessar modelos diretamente do SQL usando funções de IA para fácil integração em fluxos de trabalho de análise.
As funções de IA e o serviço de modelo estão totalmente integrados para cenários de inferência em lote. Você pode utilizar qualquer uma das funções de IA específicas da tarefa ou ai-query nos seus pipelines de inferência em lote. Se optar por usar um modelo pré-provisionado hospedado e gerido pelo Databricks, não precisará configurar um endpoint de serviço de modelo por conta própria.
Consulte os seguintes guias para começar:
- Para executar inferência em lote, consulte Aplicar IA em dados usando funções de IA do Azure Databricks.
- Para obter um tutorial introdutório sobre como servir modelos personalizados no Azure Databricks para inferência em tempo real, consulte Tutorial: Implantar e consultar um modelo personalizado.
- Para obter um tutorial de introdução sobre como consultar um modelo básico no Databricks para inferência em tempo real, consulte Introdução à consulta de LLMs no Databricks.
Modelos que você pode implantar
O serviço de modelo suporta inferência em tempo real e em lote para os seguintes tipos de modelo:
-
Modelos personalizados. Estes são modelos Python empacotados no formato MLflow. Eles podem ser registrados no Unity Catalog ou no registro do modelo de espaço de trabalho. Exemplos incluem os modelos de transformador scikit-learn, XGBoost, PyTorch e Hugging Face.
- O atendimento por agente é suportado como um modelo personalizado. Consulte Implantar um agente para aplicativos generativos de IA
-
Modelos de Base.
- Modelos fundamentais hospedados pelo Databricks como Meta Llama. Esses modelos estão disponíveis usando APIs do Foundation Model. Esses modelos são arquiteturas de modelo de base selecionadas que suportam inferência otimizada. Modelos base, como Meta-Llama-3.3-70B-Instruct, GTE-Large, e Mistral-7B, estão disponíveis para utilização imediata com pagamento por token. Cargas de trabalho que exigem garantias de desempenho e variantes de modelos ajustados podem ser implementadas com taxa de transferência provisionada.
- Modelos Fundamentais hospedados fora do Databricks, como GPT-4 da OpenAI. Estes modelos são acessíveis usando Modelos externos. Os pontos de extremidade que atendem a esses modelos podem ser governados centralmente a partir do Azure Databricks, para que você possa simplificar o uso e o gerenciamento de vários provedores LLM, como OpenAI e Anthropic, em sua organização.
Nota
Você pode interagir com modelos de linguagem grandes suportados usando o AI Playground. O AI Playground é um ambiente semelhante a um bate-papo onde você pode testar, solicitar e comparar LLMs. Essa funcionalidade está disponível em seu espaço de trabalho do Azure Databricks.
Porquê usar o Model Serving?
Implantar e consultar quaisquer modelos: o Model Serving fornece uma interface unificada para que você possa gerenciar todos os modelos em um único local e consultá-los com uma única API, independentemente de estarem hospedados no Databricks ou externamente. Essa abordagem simplifica o processo de experimentação, personalização e implantação de modelos em produção em várias nuvens e provedores.
Personalize modelos com segurança com seus dados privados: Construído em uma plataforma de inteligência de dados, o Model Serving simplifica a integração de recursos e incorporações em modelos por meio da integração nativa com o Databricks Feature Store e o Mosaic AI Vetor Search. Para melhorar ainda mais a precisão e a compreensão contextual, os modelos podem ser ajustados com dados proprietários e implantados sem esforço no Model Serving.
Governar e monitorar modelos: a interface do usuário de serviço permite gerenciar centralmente todos os pontos de extremidade do modelo em um só lugar, incluindo aqueles que são hospedados externamente. Você pode gerenciar permissões, rastrear e definir limites de uso e monitorar a qualidade de todos os tipos de modelos usando AI Gateway. Isso permite que você democratize o acesso a SaaS e LLMs abertos em sua organização, garantindo que os guardrails apropriados estejam em vigor.
Reduza os custos com inferência otimizada e escalabilidade rápida: a Databricks implementou uma variedade de otimizações para garantir que você obtenha a melhor taxa de transferência e latência para modelos grandes. Os endpoints aumentam ou diminuem automaticamente a escala para atender às mudanças de demanda, economizando custos de infraestrutura e otimizando o desempenho de latência. Monitore os custos de operação do modelo.
- Para cargas de trabalho sensíveis à latência ou que envolvem um elevado número de consultas por segundo, veja Otimizar os endpoints de Servidor de Modelos para produção para estratégias de otimização abrangentes. Entre em contato com sua equipe de conta Databricks para garantir que seu espaço de trabalho esteja habilitado para alta escalabilidade.
- Traga confiabilidade e segurança ao Model Serving: o Model Serving foi projetado para uso de produção de alta disponibilidade e baixa latência e pode suportar mais de 25K consultas por segundo com uma latência de sobrecarga inferior a 50 ms. As cargas de trabalho em serviço são protegidas por várias camadas de segurança, garantindo um ambiente seguro e confiável até mesmo para as tarefas mais sensíveis. Você pode controlar o acesso à rede aos pontos de extremidade do Model Serving configurando diretivas de rede. Consulte Gerenciar políticas de rede para controle de saída sem servidor.
Nota
O Model Serving não fornece patches de segurança para imagens de modelo existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com sua equipe de conta Databricks para obter mais informações.
Requerimentos
- Modelo registado no Catálogo do Unity ou no Registro de Modelos do Espaço de Trabalho.
- Permissões nos modelos registados, conforme descrito em ACLs de pontos de extremidade em serviço.
- MLflow 1.29 ou superior.
- Se você estiver usando o Azure Private Link para respeitar as regras de entrada relacionadas à rede configuradas no espaço de trabalho, o Azure Private Link só terá suporte para pontos de extremidade de serviço de modelo que usam taxa de transferência provisionada ou pontos de extremidade que servem modelos personalizados. Consulte Configurar conectividade privada para recursos do Azure.
- Permissões de espaço de trabalho configuradas. Consulte Gerenciar direitos.
Ativar o Model Serving para o seu espaço de trabalho
Nenhuma etapa adicional é necessária para habilitar o Model Serving em seu espaço de trabalho.
Limitações e disponibilidade da região
O Mosaic AI Model Serving impõe limites padrão para garantir um desempenho confiável. Consulte Limites e regiões de serviço do modelo. Se você tiver comentários sobre esses limites ou um ponto de extremidade em uma região sem suporte, entre em contato com sua equipe de conta do Databricks.
Proteção de dados no Model Serving
A Databricks leva a segurança de dados a sério. A Databricks entende a importância dos dados que você analisa usando o Mosaic AI Model Serving e implementa os seguintes controles de segurança para proteger seus dados.
- Cada solicitação do cliente ao Model Serving é logicamente isolada, autenticada e autorizada.
- O Mosaic AI Model Serving criptografa todos os dados em repouso (AES-256) e em trânsito (TLS 1.2+).
Para todas as contas pagas, o Mosaic AI Model Serving não usa entradas de usuário enviadas ao serviço ou saídas do serviço para treinar quaisquer modelos ou melhorar quaisquer serviços Databricks.
Para todas as cargas de trabalho do Mosaic AI Model, o Databricks retém logs de compilação de contêiner por até trinta (30) dias e dados de métricas por até catorze (14) dias.
Para APIs do Databricks Foundation Model, como parte do fornecimento do serviço, o Databricks pode processar e armazenar temporariamente entradas e saídas com a finalidade de prevenir, detetar e mitigar abusos ou usos prejudiciais. Suas entradas e saídas são isoladas das de outros clientes, armazenadas na mesma região do seu espaço de trabalho por até 30 (trinta) dias e acessíveis apenas para detetar e responder a preocupações de segurança ou abuso.
As APIs de Modelos Fundamentais são um Serviço Designado do Databricks, o que significa que aderem aos limites de residência de dados conforme implementado pelo Databricks Geos.
Recursos adicionais
- Comece a fazer consultas a LLMs no Databricks.
- Tutorial: Implantar e consultar um modelo personalizado
- Tutorial: Criar endereços de modelo externos para aceder a modelos OpenAI
- Crie aplicativos de IA de geração no Azure Databricks
- Aplicar IA em dados usando o Azure Databricks AI Functions
- Migrar para o Model Serving