Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
O MLflow 3 para GenAI é uma plataforma aberta que unifica o rastreamento, avaliação e observabilidade para aplicações e agentes GenAI ao longo do ciclo de vida de desenvolvimento e produção. Inclui registo de traços em tempo real, pontuadores integrados e personalizados, incorporação de feedback humano e rastreamento de versões para ajudar a avaliar e melhorar a qualidade da aplicação de forma eficiente durante o desenvolvimento, continuando a monitorizar e melhorar a qualidade em produção.
O Managed MLflow no Databricks estende o MLflow open source com capacidades concebidas para aplicações GenAI em produção, incluindo governação pronta para empresas, alojamento totalmente gerido, escalabilidade ao nível de produção e integração com os seus dados no Databricks lakehouse e no Unity Catalog.
Para obter informações sobre a avaliação do agente no MLflow 2, consulte Mosaic AI Agent Evaluation (MLflow 2) e o guia de migração. Para o MLflow 3, os métodos do SDK de Avaliação de Agentes foram integrados com o MLflow gerido pelo Databricks.
Para um conjunto de tutoriais para começar, veja Comece.
Como o MLflow 3 ajuda a otimizar a qualidade da aplicação GenAI
Avaliar aplicações e agentes GenAI é mais complexo do que avaliar software tradicional. As entradas e saídas são frequentemente texto livre, e muitas saídas diferentes podem ser consideradas corretas. A qualidade depende não só da correção, mas também de fatores como precisão, comprimento, completude, adequação e outros critérios específicos do caso de uso. Como os LLMs são inerentemente não determinísticos, e os agentes GenAI incluem componentes adicionais como retrievers e ferramentas, as suas respostas podem variar de execução para execução.
Os programadores precisam de métricas concretas de qualidade, avaliação automatizada e monitorização contínua para construir e implementar aplicações de IA robustas. O MLflow 3 para GenAI fornece estas peças-chave para desenvolvimento, implementação e melhoria contínua eficientes:
- O rastreamento regista automaticamente entradas, passos intermédios e saídas, fornecendo a base de dados para avaliação e monitorização.
- Juízes e avaliadores de LLM integrados e personalizados permitem-lhe definir vários aspetos de qualidade e personalizar métricas ao seu caso de uso.
- As aplicações de revisão para feedback de especialistas permitem-lhe recolher e rotular conjuntos de dados para avaliação e alinhar juízes e avaliadores automáticos com o julgamento especializado.
- A avaliação e monitorização automatizadas utilizam os mesmos juízes e avaliadores durante o desenvolvimento e produção.
- O versionamento de aplicações e prompts permite comparar versões e monitorizar melhorias ao longo das iterações.
Usando o MLflow 3 no Databricks, pode trazer IA para os seus dados para o ajudar a compreender profundamente e melhorar a qualidade. O Unity Catalog fornece uma governança consistente para prompts, aplicações e rastreios. Usando qualquer modelo ou framework, o MLflow apoia-o ao longo do ciclo de desenvolvimento, até à produção e durante a produção.
Introdução
Comece a construir melhores aplicativos GenAI com ferramentas abrangentes de observação e avaliação.
| Tarefa | Descrição |
|---|---|
| Guia de início rápido | Comece em funcionamento em minutos com instruções passo a passo para a instrumentação da sua primeira aplicação com rastreio, executar avaliação e recolher feedback humano. |
| Comece: Rastreamento MLflow para GenAI (Databricks Notebook) | Configure uma aplicação GenAI simples para capturar automaticamente logs detalhados para depuração e otimização. |
| Tutorial: Avaliar e melhorar um aplicativo GenAI | Passa-o pela avaliação de uma aplicação de geração de emails que utiliza geração aumentada por recuperação (RAG). |
| Demonstração de 10 minutos: Recolha de feedback humano | Recolha feedback dos utilizadores finais, adicione anotações para programadores, crie sessões de revisão especializada e use esse feedback para avaliar a qualidade da sua aplicação GenAI. |
Rastreamento
O MLflow Tracing fornece observabilidade e regista os dados de rastreamento necessários para avaliação e monitorização.
| Característica | Descrição |
|---|---|
| Rastreamento MLflow | Observabilidade de ponta a ponta para aplicações GenAI, incluindo sistemas complexos baseados em agentes. Acompanhe entradas, saídas, passos intermédios e metadados para ter uma visão completa do comportamento da sua aplicação. |
| O que é o rastreamento? | Introdução aos conceitos de rastreamento. |
| Revise o comportamento e desempenho da sua aplicação | A visibilidade completa da execução permite capturar prompts, recuperações, chamadas de ferramentas, respostas, latência e custos. |
| Observabilidade de produção | Use a mesma instrumentação em ambientes de desenvolvimento e produção para uma avaliação consistente. |
| Construir conjuntos de dados de avaliação | Analise as pistas para identificar questões de qualidade, selecione as representativas, crie conjuntos de dados de avaliação e melhore sistematicamente a sua aplicação. |
| Rastreio de integrações | O MLflow Tracing está integrado com muitas bibliotecas e frameworks para rastreamento automático, permitindo obter observabilidade imediata nas suas aplicações GenAI com configuração mínima. |
Avaliação e monitorização
Substituir os testes manuais por avaliação automatizada, utilizando juízes e avaliadores LLM incorporados e personalizados, que correspondam à experiência humana e podem ser aplicados tanto no desenvolvimento como na produção. Cada interação de produção torna-se uma oportunidade para melhorar com feedback integrado e fluxos de trabalho de avaliação.
| Característica | Descrição |
|---|---|
| Avaliar e monitorizar agentes GenAI | Visão geral da avaliação e monitorização de agentes usando MLflow 3 em Databricks. |
| Juízes e marcadores do LLM | O MLflow 3 inclui juízes LLM integrados para segurança, relevância, precisão, qualidade de recuperação e muito mais. Também pode criar juízes de LLM personalizados e pontuadores baseados em código para os requisitos específicos do seu negócio. |
| Avaliação | Realize uma avaliação durante o desenvolvimento ou como parte de um processo de lançamento. |
| Monitorização da produção | Monitorizar continuamente uma amostra de tráfego de produção usando juízes e avaliadores LLM. |
| Recolha feedback humano | Recolha e utiliza feedback de especialistas do domínio e utilizadores finais durante o desenvolvimento e a produção para melhoria contínua. |
Gerir o ciclo de vida da aplicação GenAI
Versione, acompanhe e administre todo o seu aplicativo GenAI com ferramentas de governança e gerenciamento de ciclo de vida de nível empresarial.
| Característica | Descrição |
|---|---|
| Versionamento de aplicações | Acompanhe o código, os parâmetros e as métricas de avaliação para cada versão. |
| Registo de Prompts | Gerenciamento centralizado para controle de versão e compartilhamento de prompts em toda a sua organização com recursos de teste A/B e integração com o Unity Catalog. |
| Integração empresarial |
Catálogo Unity. Governança unificada para todos os ativos de IA com recursos corporativos de segurança, controle de acesso e conformidade. Inteligência de dados. Conecte seus dados GenAI aos dados de sua empresa no Databricks Lakehouse e forneça análises personalizadas para as partes interessadas do seu negócio. Mosaico AI Agent Serving. Implantar agentes na produção com escalabilidade e rigor operacional. |