Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo descreve como habilitar a otimização de rota nos seus pontos de extremidade de serviço de modelo ou de serviço de recursos. Rotear pontos de extremidade de serviço otimizados reduz drasticamente a latência de sobrecarga e permite melhorias substanciais na taxa de transferência com suporte do ponto de extremidade.
Os endpoints com rotas otimizadas são consultados de maneira diferente dos endpoints não otimizados para rotas, incluindo o uso de uma URL diferente e autenticação usando tokens OAuth. Consulte endpoints de serviço otimizados por rota para obter detalhes.
O que é otimização de rota?
Quando você habilita a otimização de rota em um ponto de extremidade, o Serviço de Modelo do Databricks melhora o caminho de rede para solicitações de inferência, resultando em uma comunicação mais rápida e direta entre o cliente e o modelo. Esse roteamento otimizado desbloqueia consultas mais altas por segundo (QPS) em comparação com pontos de extremidade não otimizados e fornece latências mais estáveis e inferiores para seus aplicativos.
Dica
A otimização de rota é uma das várias estratégias para otimizar cargas de trabalho de produção. Para obter um guia abrangente sobre técnicas de otimização, consulte Otimizar pontos de extremidade de serviço de modelo para produção.
Requisitos
- A otimização de rota nos pontos de extremidade de serviço de modelo tem os mesmos requisitos que os pontos de extremidade de serviço de modelo sem otimização de rota.
- A otimização de rota em endpoints de serviço de funcionalidades tem os mesmos requisitos que os endpoints de serviço de funcionalidades sem otimização de rota.
Habilitar a otimização de rota em um ponto de extremidade de serviço de modelo
Interface do usuário de serviço
Você pode habilitar a otimização de rota ao criar um ponto de extremidade do serviço de modelo usando a interface do usuário de Serviço. Você só pode habilitar a otimização de rota durante a criação do ponto de extremidade, não é possível atualizar os pontos de extremidade existentes para serem otimizados por rota.
- Na barra lateral, clique em Serviço para exibir a interface do usuário de Serviço.
- Clique em Criar ponto de extremidade de serviço.
- Na seção Otimização de rota, selecione Habilitar otimização de rota.
- Depois que o ponto de extremidade for criado, o Databricks enviará uma notificação sobre o que é necessário para consultar um ponto de extremidade com rota otimizada.
API REST
Para configurar seu ponto de extremidade do serviço para otimização de rota usando a API REST, especifique o route_optimized parâmetro durante a criação do ponto de extremidade do serviço de modelo. Só é possível especificar esse parâmetro durante a criação do ponto de extremidade, não é possível atualizar os pontos de extremidade existentes para serem otimizados para rota.
POST /api/2.0/serving-endpoints
{
"name": "my-endpoint",
"config":
{
"served_entities":
[{
"entity_name": "ads1",
"entity_version": "1",
"workload_type": "CPU",
"workload_size": "Small",
"scale_to_zero_enabled": true,
}],
},
"route_optimized": true
}
Python
Se você usar o Python, é possível usar o notebook a seguir para criar um ponto de extremidade de serviço otimizado para rota.
Criar um ponto de extremidade de serviço otimizado para rota usando o notebook Python
SDK do Databricks
Para configurar o ponto de extremidade de serviço para otimização de rota usando o SDK do Databricks, especifique o parâmetro route_optimized durante a criação do modelo do ponto de extremidade de serviço. Só é possível especificar esse parâmetro durante a criação do ponto de extremidade, não é possível atualizar os pontos de extremidade existentes para serem otimizados para rota.
from databricks.sdk import WorkspaceClient
from databricks.sdk.service.serving import EndpointCoreConfigInput, ServedEntityInput
workspace = WorkspaceClient()
workspace.serving_endpoints.create(
name="my-serving-endpoint",
config = EndpointCoreConfigInput(
served_entities=[
ServedEntityInput(
entity_name="main.default.my-served-entity",
scale_to_zero_enabled=True,
workload_size="Small"
)
]
),
route_optimized=True
)
Habilitar a otimização de rota em um ponto de extremidade de serviço de recurso
Para usar a otimização de rota no Recurso e o Serviço de Função, especifique o nome completo da especificação do recurso no campo entity_name para solicitações de criação de ponto de extremidade de serviço. A entity_version não é necessária para FeatureSpecs.
POST /api/2.0/serving-endpoints
{
"name": "my-endpoint",
"config":
{
"served_entities":
[
{
"entity_name": "catalog_name.schema_name.feature_spec_name",
"workload_type": "CPU",
"workload_size": "Small",
"scale_to_zero_enabled": true
}
]
},
"route_optimized": true
}
Limitações
- A otimização de rota só está disponível para o modelo personalizado que atende pontos de extremidade e recursos que atendem pontos de extremidade. Não há suporte para pontos de extremidade que utilizam APIs do modelo Foundation ou modelos externos.
- Os tokens OAuth internos do Databricks são a única autenticação com suporte para otimização de rota. Não há suporte para tokens de acesso pessoal.