Partilhar via


Otimização de rotas em pontos finais de serviço

Este artigo descreve como habilitar a otimização de rotas nos seus pontos de extremidade de serviço de modelo ou de serviço de funcionalidades. Os pontos de extremidade de serviço otimizados de rota reduzem drasticamente a latência de sobrecarga e permitem melhorias substanciais na taxa de transferência suportada pelo seu endpoint.

Os pontos de extremidade otimizados para rota são consultados de forma diferente dos pontos de extremidade não otimizados para rota, incluindo o uso de uma URL diferente e a autenticação usando tokens OAuth. Consulte Consultar pontos de extremidade de serviço otimizados para rota para obter detalhes.

O que é otimização de rotas?

Quando você habilita a otimização de rota em um ponto de extremidade, o Databricks Model Serving melhora o caminho de rede para solicitações de inferência, resultando em uma comunicação mais rápida e direta entre seu cliente e o modelo. Esse roteamento otimizado desbloqueia consultas por segundo (QPS) mais altas em comparação com pontos de extremidade não otimizados e fornece latências mais estáveis e mais baixas para seus aplicativos.

Sugestão

A otimização de rotas é uma das várias estratégias para otimizar cargas de trabalho em produção. Para um guia abrangente sobre técnicas de otimização, consulte Otimizar endpoints de serviço de modelo para produção.

Requisitos

Habilite a otimização de rotas em um modelo que serve o ponto de extremidade

Servindo a interface do usuário

Você pode habilitar a otimização de rota ao criar um ponto de extremidade de serviço do modelo usando a interface de usuário Serviço. Você só pode habilitar a otimização de rota durante a criação do ponto de extremidade, não é possível atualizar os pontos de extremidade existentes para serem otimizados para rota.

  1. Na barra lateral, clique em Serviço para exibir a interface de utilização de Serviço.
  2. Clique em Criar terminal de serviço.
  3. Na seção Otimização de rota , selecione Habilitar otimização de rota.
  4. Depois que seu ponto de extremidade é criado, o Databricks envia uma notificação sobre o que é necessário para consultar um ponto de extremidade otimizado para rota.

Criar um endpoint de disponibilização de modelo

API REST

Para configurar o seu ponto de extremidade de serviço para otimização de rota usando a API REST, especifique o parâmetro route_optimized durante a criação do ponto de extremidade de serviço do modelo. Você só pode especificar esse parâmetro durante a criação do ponto de extremidade, não é possível atualizar os pontos de extremidade existentes para serem otimizados para roteamento.

POST /api/2.0/serving-endpoints

{
  "name": "my-endpoint",
  "config":
  {
    "served_entities":
    [{
      "entity_name": "ads1",
      "entity_version": "1",
      "workload_type": "CPU",
      "workload_size": "Small",
      "scale_to_zero_enabled": true,
    }],
  },
  "route_optimized": true
}

Python

Se você usa Python, pode usar o bloco de anotações a seguir para criar um ponto de extremidade de serviço otimizado para rota.

Criar um ponto de extremidade de serviço otimizado de rota usando o bloco de anotações Python

Obter bloco de notas

Databricks SDK

Para configurar o seu endpoint de serviço para otimização de rota usando o SDK do Databricks, especifique o parâmetro route_optimized durante a criação do endpoint de serviço de modelo. Você só pode especificar esse parâmetro durante a criação do ponto de extremidade, não é possível atualizar os pontos de extremidade existentes para serem otimizados para roteamento.

from databricks.sdk import WorkspaceClient
from databricks.sdk.service.serving import EndpointCoreConfigInput, ServedEntityInput

workspace = WorkspaceClient()

workspace.serving_endpoints.create(
  name="my-serving-endpoint",
  config = EndpointCoreConfigInput(
    served_entities=[
    ServedEntityInput(
        entity_name="main.default.my-served-entity",
        scale_to_zero_enabled=True,
        workload_size="Small"
      )
    ]
  ),
  route_optimized=True
)

Habilite a otimização de rotas em um ponto de extremidade de serviço de recurso

Para usar a otimização de rota para Feature and Function Serving, especifique o nome completo da especificação do recurso no entity_name campo para atender às solicitações de criação de pontos finais. O entity_version não é necessário para FeatureSpecs.


POST /api/2.0/serving-endpoints

{
  "name": "my-endpoint",
  "config":
  {
    "served_entities":
    [
      {
        "entity_name": "catalog_name.schema_name.feature_spec_name",
        "workload_type": "CPU",
        "workload_size": "Small",
        "scale_to_zero_enabled": true
      }
    ]
  },
  "route_optimized": true
}

Limitações

  • A otimização de rotas só está disponível para endpoints de serviço de modelo personalizado e endpoints de serviço de recursos. Não há suporte para fornecer pontos de extremidade que usam APIs de Modelos Fundamentais ou modelos externos.
  • Os tokens OAuth internos do Databricks são a única autenticação suportada para otimização de rotas. Não há suporte para tokens de acesso pessoal.

Recursos adicionais