Partilhar via


Migrar para o Model Serving

Este artigo demonstra como habilitar o Model Serving em seu espaço de trabalho e alternar seus modelos para a experiência Mosaic AI Model Serving baseada em computação sem servidor.

Importante

A partir de 22 de agosto de 2025, os clientes não poderão mais criar novos pontos de extremidade de serviço usando a experiência de serviço do modelo MLflow herdado. Em 15 de setembro de 2025, a experiência legada chegará ao fim da vida útil e todos os endpoints existentes que usam esse serviço não poderão mais ser usados.

Requisitos

Alterações significativas

  • No Model Serving, o formato da solicitação para o endpoint e a resposta do endpoint são ligeiramente diferentes do Legacy MLflow Model Serving. Consulte Pontuar um endpoint de modelo para obter detalhes sobre o novo protocolo de formato.
  • No serviço de modelo, o URL do endpoint inclui serving-endpoints em vez de model.
  • O Model Serving inclui suporte completo para gerenciar recursos com fluxos de trabalho de API.
  • O Model Serving está pronto para produção e é apoiado pelo SLA do Azure Databricks.

Identificar pontos de extremidade de serviço que usam o Legacy MLflow Model Serving

Para identificar pontos de extremidade de serviço de modelo que usam o Legacy MLflow Model Serving:

  1. Navegue até a interface do usuário Modelos em seu espaço de trabalho.
  2. Selecione o filtro Registro do Modelo de Espaço de Trabalho .
  3. Selecione o filtro Somente serviço herdado habilitado .

Migrar o serviço de modelos MLflow herdados para o Serviço de Modelos

Você pode criar um endpoint para servir modelos e fazer a transição flexível de fluxos de trabalho sem desabilitar o Legacy MLflow Model Serving.

As etapas a seguir mostram como fazer isso com a interface do usuário. Para cada modelo no qual você tem o Legacy MLflow Model Serving habilitado:

  1. Registe o seu modelo no Catálogo Unity.
  2. Navegue até Pontos de Serviço na barra lateral do seu espaço de trabalho de aprendizagem de máquina.
  3. Siga o fluxo de trabalho descrito em Criar pontos de extremidade de serviço de modelo personalizado para saber como criar um ponto de extremidade de serviço com o seu modelo.
  4. Faça a transição da sua aplicação para usar a nova URL fornecida pelo endpoint de serviço para consultar o modelo, juntamente com o novo formato de pontuação.
  5. Quando os modelos são transferidos, você pode navegar até Modelos na barra lateral do espaço de trabalho de aprendizado de máquina.
  6. Selecione o modelo para o qual você deseja desabilitar o Legacy MLflow Model Serving.
  7. Na guia Serviço, selecione Parar.
  8. Uma mensagem aparece para confirmar. Selecione Parar de servir.

Migrar versões de modelo implantadas para o Model Serving

Em versões anteriores da funcionalidade Model Serving, o ponto de extremidade de serviço era criado com base no estágio da versão do modelo registrado: Staging ou Production. Para migrar seus modelos servidos a partir dessa experiência, você pode replicar esse comportamento na nova experiência de Serviço de Modelo.

Esta seção demonstra como criar endpoints de serviço de modelos separados para as versões de modelo Staging e Production. As etapas a seguir mostram como fazer isso com a API de pontos de extremidade de serviço para cada um dos modelos servidos.

No exemplo, o nome modelA do modelo registrado tem a versão 1 no estágio Production do modelo e a versão 2 no estágio Stagingdo modelo.

  1. Crie dois pontos de extremidade para seu modelo registrado, um para Staging versões de modelo e outro para Production versões de modelo.

    Para Staging versões do modelo:

    POST /api/2.0/serving-endpoints
      {
         "name":"modelA-Staging"
         "config":
         {
            "served_entities":
            [
               {
                  "entity_name":"model-A",
                  "entity_version":"2",  // Staging Model Version
                  "workload_size":"Small",
                  "scale_to_zero_enabled":true
               },
            ],
         },
      }
    

    Para Production versões do modelo:

    POST /api/2.0/serving-endpoints
      {
         "name":"modelA-Production"
         "config":
         {
            "served_entities":
            [
               {
                  "entity_name":"model-A",
                  "entity_version":"1",   // Production Model Version
                  "workload_size":"Small",
                  "scale_to_zero_enabled":true
               },
            ],
         },
      }
    
  2. Verifique o estado dos pontos de extremidade.

    Para o endpoint de testes: GET /api/2.0/serving-endpoints/modelA-Staging

    Para o ponto de extremidade de produção: GET /api/2.0/serving-endpoints/modelA-Production

  3. Quando os pontos de extremidade estiverem prontos, consulte o ponto de extremidade usando:

    Para o endpoint de testes: POST /serving-endpoints/modelA-Staging/invocations

    Para o ponto de extremidade de produção: POST /serving-endpoints/modelA-Production/invocations

  4. Atualize o endpoint com base nas mudanças de versão do modelo.

    No cenário em que uma nova versão de modelo 3 é criada, você pode fazer a transição da versão 2 do modelo para Production, enquanto a versão 3 do modelo pode fazer a transição para Staging e a versão 1 do modelo é Archived. Essas alterações podem ser refletidas em modelos separados que servem pontos de extremidade da seguinte maneira:

    Para o ponto de extremidade Staging, atualize o ponto de extremidade para usar a nova versão do modelo no Staging.

    PUT /api/2.0/serving-endpoints/modelA-Staging/config
    {
       "served_entities":
       [
          {
             "entity_name":"model-A",
             "entity_version":"3",  // New Staging model version
             "workload_size":"Small",
             "scale_to_zero_enabled":true
          },
       ],
    }
    

    Para o ponto de extremidade Production, atualize-o para usar a nova versão do modelo no Production.

    PUT /api/2.0/serving-endpoints/modelA-Production/config
    {
       "served_entities":
       [
          {
             "entity_name":"model-A",
             "entity_version":"2",  // New Production model version
             "workload_size":"Small",
             "scale_to_zero_enabled":true
          },
       ],
    }
    

Recursos adicionais