Partilhar via


Introdução ao Mosaic AI Gateway

Este artigo descreve o Mosaic AI Gateway, a solução Databricks para gerir e monitorizar o acesso a modelos de IA generativa suportados e aos seus endpoints de serviço de modelos associados.

O que é o Mosaic AI Gateway?

O Mosaic AI Gateway foi projetado para simplificar o uso e o gerenciamento de modelos e agentes de IA generativa dentro de uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para modelar pontos de extremidade de serviço. Ele também permite que você execute, proteja e governe o tráfego de IA para democratizar e acelerar a adoção de IA para sua organização.

Todos os dados são registrados em tabelas Delta no Unity Catalog.

Para começar a visualizar insights de seus dados do AI Gateway, baixe o painel de exemplo do AI Gateway no GitHub. Este dashboard utiliza os dados das tabelas de inferência de monitorização de uso e registo de carga.

Depois de baixar o arquivo JSON, importe o painel para seu espaço de trabalho. Para obter instruções sobre como importar painéis, consulte Importar um arquivo de painel.

Recursos suportados

A tabela a seguir define as funcionalidades disponíveis do AI Gateway e quais tipos de endpoints de serviço de modelo as suportam.

Caraterística Definição Ponto de extremidade do modelo externo Ponto de extremidade de taxa de transferência provisionada de APIs do Modelo de Base Ponto de extremidade de pagamento por token das APIs do Modelo de Base Agentes de IA em mosaico Endpoint de modelo personalizado
Permissão e limitação de taxa Controle quem tem acesso e quanto acesso. Suportado Suportado Suportado Não suportado Suportado
Registo de carga útil Monitore e audite os dados que estão sendo enviados para APIs de modelo usando tabelas de inferência. Suportado Suportado Suportado Suportado Suportado
Monitorização de utilização Monitore o uso operacional nos endpoints e os custos associados, utilizando as tabelas do sistema . Suportado Suportado Suportado Não suportado Suportado
Restrições de IA Evite dados indesejados e inseguros em solicitações e respostas. Veja Guardiões de IA. Suportado Suportado Suportado Não suportado Não suportado
Alternativas Minimize as interrupções de produção durante e após a implantação. Suportado Não suportado Não suportado Não suportado Não suportado
Divisão de tráfego Distribua o tráfego de carga entre modelos. Suportado Suportado Não suportado Não suportado Suportado

O sistema Mosaic AI Gateway incorre em cobranças com base em funcionalidades ativadas. Os recursos pagos incluem registro de carga útil e rastreamento de uso. Recursos como permissões de consulta, limitação de velocidade, alternativas e divisão de tráfego são gratuitos. Quaisquer novas funcionalidades estão sujeitas a cobrança.

Restrições de IA

Importante

Este recurso está no Public Preview.

Os Guardrails de IA permitem que os usuários configurem e imponham a conformidade de dados no nível de ponto final de serviço do modelo e reduzam o conteúdo prejudicial em quaisquer solicitações enviadas para o modelo subjacente. Solicitações e respostas incorretas são bloqueadas e uma mensagem padrão é retornada ao usuário. Veja como configurar trilhos de segurança num ponto de serviço de modelo.

Importante

O serviço de moderação AI Guardrails depende dos modelos de pagamento por token das APIs do Modelo de Base. Essa dependência limita a disponibilidade do serviço de moderação AI Guardrails a regiões que suportam APIs do Modelo de Fundação pay-per-token.

A tabela a seguir resume os guarda-corpos configuráveis. Consulte Limitações.

Rail de proteção Definição
Filtragem de segurança A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio.
O filtro de segurança AI Gateway é construído com Meta Llama 3. A Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam ao filtro de segurança, consulte o cartão modelo Meta Llama Guard 2 8B.
Meta Llama 3 é licenciado sob a LLAMA 3 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.
Deteção de informações de identificação pessoal (PII) Os clientes podem detetar qualquer informação confidencial, como números de cartão de crédito para os usuários.
Para esse recurso, o AI Gateway usa o Presidio para detetar as seguintes categorias de PII nos EUA: números de cartão de crédito, endereços de e-mail, números de telefone, números de contas bancárias e números de segurança social.
O classificador PII pode ajudar a identificar informações confidenciais ou PII em dados estruturados e não estruturados. No entanto, por estar usando mecanismos de deteção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, devem ser utilizados sistemas e proteções adicionais.
Esses métodos de classificação têm como escopo principal as categorias de PII dos EUA, como números de telefone dos EUA e números de segurança social.

Usar o Portal de IA

Você pode configurar os recursos do AI Gateway nos pontos de extremidade de serviço do seu modelo usando a interface de serviço. Consulte Configurar o AI Gateway em pontos de extremidade de disponibilização de modelos.

Limitações

A seguir estão as limitações para endpoints ativados no AI Gateway:

  • Quando são usadas barreiras de segurança de IA, o tamanho do lote de solicitações, seja ele de incorporações, de conclusões ou o parâmetro n de solicitações de chat, não pode exceder 16.
  • Se você usar chamada de função e especificar guarda-corpos de IA, esses guarda-corpos não serão aplicados às solicitações e respostas intermediárias da função. No entanto, limites são aplicados à resposta final.
  • Não há suporte para cargas de trabalho de texto em imagem.
  • Apenas o rastreamento de uso é suportado para cargas de trabalho de inferência em lote em endpoints de pagamento por token com recursos do AI Gateway ativados. Na tabela do sistema, endpoint_usage apenas as linhas correspondentes à solicitação de inferência em lote são visíveis.
  • Não há suporte para guarda-corpos e fallbacks de IA em endpoints de serviço de modelo personalizado.
  • Para pontos de extremidade de serviço de modelo personalizado, somente cargas de trabalho que não são otimizadas para rota suportam limitação de taxa e rastreamento de uso.
  • As tabelas de inferência para pontos de extremidade para serviço de modelo otimizado de rotas estão em Visualização pública.
  • Consulte Limitações da tabela de inferência habilitada para AI Gateway para obter detalhes sobre as limitações da tabela de inferência.