Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Este artigo descreve o Mosaic AI Gateway, a solução Databricks para gerir e monitorizar o acesso a modelos de IA generativa suportados e aos seus endpoints de serviço de modelos associados.
O que é o Mosaic AI Gateway?
O Mosaic AI Gateway foi projetado para simplificar o uso e o gerenciamento de modelos e agentes de IA generativa dentro de uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para modelar pontos de extremidade de serviço. Ele também permite que você execute, proteja e governe o tráfego de IA para democratizar e acelerar a adoção de IA para sua organização.
Todos os dados são registrados em tabelas Delta no Unity Catalog.
Para começar a visualizar insights de seus dados do AI Gateway, baixe o painel de exemplo do AI Gateway no GitHub. Este dashboard utiliza os dados das tabelas de inferência de monitorização de uso e registo de carga.
Depois de baixar o arquivo JSON, importe o painel para seu espaço de trabalho. Para obter instruções sobre como importar painéis, consulte Importar um arquivo de painel.
Recursos suportados
A tabela a seguir define as funcionalidades disponíveis do AI Gateway e quais tipos de endpoints de serviço de modelo as suportam.
| Caraterística | Definição | Ponto de extremidade do modelo externo | Ponto de extremidade de taxa de transferência provisionada de APIs do Modelo de Base | Ponto de extremidade de pagamento por token das APIs do Modelo de Base | Agentes de IA em mosaico | Endpoint de modelo personalizado |
|---|---|---|---|---|---|---|
| Permissão e limitação de taxa | Controle quem tem acesso e quanto acesso. | Suportado | Suportado | Suportado | Não suportado | Suportado |
| Registo de carga útil | Monitore e audite os dados que estão sendo enviados para APIs de modelo usando tabelas de inferência. | Suportado | Suportado | Suportado | Suportado | Suportado |
| Monitorização de utilização | Monitore o uso operacional nos endpoints e os custos associados, utilizando as tabelas do sistema . | Suportado | Suportado | Suportado | Não suportado | Suportado |
| Restrições de IA | Evite dados indesejados e inseguros em solicitações e respostas. Veja Guardiões de IA. | Suportado | Suportado | Suportado | Não suportado | Não suportado |
| Alternativas | Minimize as interrupções de produção durante e após a implantação. | Suportado | Não suportado | Não suportado | Não suportado | Não suportado |
| Divisão de tráfego | Distribua o tráfego de carga entre modelos. | Suportado | Suportado | Não suportado | Não suportado | Suportado |
O sistema Mosaic AI Gateway incorre em cobranças com base em funcionalidades ativadas. Os recursos pagos incluem registro de carga útil e rastreamento de uso. Recursos como permissões de consulta, limitação de velocidade, alternativas e divisão de tráfego são gratuitos. Quaisquer novas funcionalidades estão sujeitas a cobrança.
Restrições de IA
Os Guardrails de IA permitem que os usuários configurem e imponham a conformidade de dados no nível de ponto final de serviço do modelo e reduzam o conteúdo prejudicial em quaisquer solicitações enviadas para o modelo subjacente. Solicitações e respostas incorretas são bloqueadas e uma mensagem padrão é retornada ao usuário. Veja como configurar trilhos de segurança num ponto de serviço de modelo.
Importante
O serviço de moderação AI Guardrails depende dos modelos de pagamento por token das APIs do Modelo de Base. Essa dependência limita a disponibilidade do serviço de moderação AI Guardrails a regiões que suportam APIs do Modelo de Fundação pay-per-token.
A tabela a seguir resume os guarda-corpos configuráveis. Consulte Limitações.
| Rail de proteção | Definição |
|---|---|
| Filtragem de segurança | A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio. O filtro de segurança AI Gateway é construído com Meta Llama 3. A Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam ao filtro de segurança, consulte o cartão modelo Meta Llama Guard 2 8B. Meta Llama 3 é licenciado sob a LLAMA 3 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis. |
| Deteção de informações de identificação pessoal (PII) | Os clientes podem detetar qualquer informação confidencial, como números de cartão de crédito para os usuários. Para esse recurso, o AI Gateway usa o Presidio para detetar as seguintes categorias de PII nos EUA: números de cartão de crédito, endereços de e-mail, números de telefone, números de contas bancárias e números de segurança social. O classificador PII pode ajudar a identificar informações confidenciais ou PII em dados estruturados e não estruturados. No entanto, por estar usando mecanismos de deteção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, devem ser utilizados sistemas e proteções adicionais. Esses métodos de classificação têm como escopo principal as categorias de PII dos EUA, como números de telefone dos EUA e números de segurança social. |
Usar o Portal de IA
Você pode configurar os recursos do AI Gateway nos pontos de extremidade de serviço do seu modelo usando a interface de serviço. Consulte Configurar o AI Gateway em pontos de extremidade de disponibilização de modelos.
Limitações
A seguir estão as limitações para endpoints ativados no AI Gateway:
- Quando são usadas barreiras de segurança de IA, o tamanho do lote de solicitações, seja ele de incorporações, de conclusões ou o parâmetro
nde solicitações de chat, não pode exceder 16. - Se você usar chamada de função e especificar guarda-corpos de IA, esses guarda-corpos não serão aplicados às solicitações e respostas intermediárias da função. No entanto, limites são aplicados à resposta final.
- Não há suporte para cargas de trabalho de texto em imagem.
- Apenas o rastreamento de uso é suportado para cargas de trabalho de inferência em lote em endpoints de pagamento por token com recursos do AI Gateway ativados. Na tabela do sistema,
endpoint_usageapenas as linhas correspondentes à solicitação de inferência em lote são visíveis. - Não há suporte para guarda-corpos e fallbacks de IA em endpoints de serviço de modelo personalizado.
- Para pontos de extremidade de serviço de modelo personalizado, somente cargas de trabalho que não são otimizadas para rota suportam limitação de taxa e rastreamento de uso.
- As tabelas de inferência para pontos de extremidade para serviço de modelo otimizado de rotas estão em Visualização pública.
- Consulte Limitações da tabela de inferência habilitada para AI Gateway para obter detalhes sobre as limitações da tabela de inferência.