MLflow 3 para GenAI

O MLflow 3 para GenAI é uma plataforma aberta que unifica o rastreamento, avaliação e observabilidade para aplicações e agentes GenAI ao longo do ciclo de vida de desenvolvimento e produção. Inclui registo de traços em tempo real, pontuadores integrados e personalizados, incorporação de feedback humano e rastreamento de versões para ajudar a avaliar e melhorar a qualidade da aplicação de forma eficiente durante o desenvolvimento, continuando a monitorizar e melhorar a qualidade em produção.

O Managed MLflow no Databricks estende o MLflow open source com capacidades concebidas para aplicações GenAI em produção, incluindo governação pronta para empresas, alojamento totalmente gerido, escalabilidade ao nível de produção e integração com os seus dados no Databricks lakehouse e no Unity Catalog.

Para obter informações sobre a avaliação do agente no MLflow 2, consulte Mosaic AI Agent Evaluation (MLflow 2) e o guia de migração. Para o MLflow 3, os métodos do SDK de Avaliação de Agentes foram integrados com o MLflow gerido pelo Databricks.

Para um conjunto de tutoriais para começar, veja Comece.

Como o MLflow 3 ajuda a otimizar a qualidade da aplicação GenAI

Avaliar aplicações e agentes GenAI é mais complexo do que avaliar software tradicional. As entradas e saídas são frequentemente texto livre, e muitas saídas diferentes podem ser consideradas corretas. A qualidade depende não só da correção, mas também de fatores como precisão, comprimento, completude, adequação e outros critérios específicos do caso de uso. Como os LLMs são inerentemente não determinísticos, e os agentes GenAI incluem componentes adicionais como retrievers e ferramentas, as suas respostas podem variar de execução para execução.

Os programadores precisam de métricas concretas de qualidade, avaliação automatizada e monitorização contínua para construir e implementar aplicações de IA robustas. O MLflow 3 para GenAI fornece estas peças-chave para desenvolvimento, implementação e melhoria contínua eficientes:

O rastreamento regista automaticamente entradas, passos intermédios e saídas, fornecendo a base de dados para avaliação e monitorização.
Juízes e avaliadores de LLM integrados e personalizados permitem-lhe definir vários aspetos de qualidade e personalizar métricas ao seu caso de uso.
As aplicações de revisão para feedback de especialistas permitem-lhe recolher e rotular conjuntos de dados para avaliação e alinhar juízes e avaliadores automáticos com o julgamento especializado.
A avaliação e monitorização automatizadas utilizam os mesmos juízes e avaliadores durante o desenvolvimento e produção.
O versionamento de aplicações e prompts permite comparar versões e monitorizar melhorias ao longo das iterações.

Usando o MLflow 3 no Databricks, pode trazer IA para os seus dados para o ajudar a compreender profundamente e melhorar a qualidade. O Unity Catalog fornece uma governança consistente para prompts, aplicações e rastreios. Usando qualquer modelo ou framework, o MLflow apoia-o ao longo do ciclo de desenvolvimento, até à produção e durante a produção.

Introdução

Comece a construir melhores aplicativos GenAI com ferramentas abrangentes de observação e avaliação.

Tarefa	Descrição
Guia de início rápido	Comece em funcionamento em minutos com instruções passo a passo para a instrumentação da sua primeira aplicação com rastreio, executar avaliação e recolher feedback humano.
Comece: Rastreamento MLflow para GenAI (Databricks Notebook)	Configure uma aplicação GenAI simples para capturar automaticamente logs detalhados para depuração e otimização.
Tutorial: Avaliar e melhorar um aplicativo GenAI	Passa-o pela avaliação de uma aplicação de geração de emails que utiliza geração aumentada por recuperação (RAG).
Demonstração de 10 minutos: Recolha de feedback humano	Recolha feedback dos utilizadores finais, adicione anotações para programadores, crie sessões de revisão especializada e use esse feedback para avaliar a qualidade da sua aplicação GenAI.

Rastreamento

O MLflow Tracing fornece observabilidade e regista os dados de rastreamento necessários para avaliação e monitorização.

Característica	Descrição
Rastreamento MLflow	Observabilidade de ponta a ponta para aplicações GenAI, incluindo sistemas complexos baseados em agentes. Acompanhe entradas, saídas, passos intermédios e metadados para ter uma visão completa do comportamento da sua aplicação.
O que é o rastreamento?	Introdução aos conceitos de rastreamento.
Revise o comportamento e desempenho da sua aplicação	A visibilidade completa da execução permite capturar prompts, recuperações, chamadas de ferramentas, respostas, latência e custos.
Observabilidade de produção	Use a mesma instrumentação em ambientes de desenvolvimento e produção para uma avaliação consistente.
Construir conjuntos de dados de avaliação	Analise as pistas para identificar questões de qualidade, selecione as representativas, crie conjuntos de dados de avaliação e melhore sistematicamente a sua aplicação.
Rastreio de integrações	O MLflow Tracing está integrado com muitas bibliotecas e frameworks para rastreamento automático, permitindo obter observabilidade imediata nas suas aplicações GenAI com configuração mínima.

Avaliação e monitorização

Substituir os testes manuais por avaliação automatizada, utilizando juízes e avaliadores LLM incorporados e personalizados, que correspondam à experiência humana e podem ser aplicados tanto no desenvolvimento como na produção. Cada interação de produção torna-se uma oportunidade para melhorar com feedback integrado e fluxos de trabalho de avaliação.

Característica	Descrição
Avaliar e monitorizar agentes GenAI	Visão geral da avaliação e monitorização de agentes usando MLflow 3 em Databricks.
Juízes e marcadores do LLM	O MLflow 3 inclui juízes LLM integrados para segurança, relevância, precisão, qualidade de recuperação e muito mais. Também pode criar juízes de LLM personalizados e pontuadores baseados em código para os requisitos específicos do seu negócio.
Avaliação	Realize uma avaliação durante o desenvolvimento ou como parte de um processo de lançamento.
Monitorização da produção	Monitorizar continuamente uma amostra de tráfego de produção usando juízes e avaliadores LLM.
Recolha feedback humano	Recolha e utiliza feedback de especialistas do domínio e utilizadores finais durante o desenvolvimento e a produção para melhoria contínua.

Gerir o ciclo de vida da aplicação GenAI

Versione, acompanhe e administre todo o seu aplicativo GenAI com ferramentas de governança e gerenciamento de ciclo de vida de nível empresarial.

Característica	Descrição
Versionamento de aplicações	Acompanhe o código, os parâmetros e as métricas de avaliação para cada versão.
Registo de Prompts	Gerenciamento centralizado para controle de versão e compartilhamento de prompts em toda a sua organização com recursos de teste A/B e integração com o Unity Catalog.
Integração empresarial	Catálogo Unity. Governança unificada para todos os ativos de IA com recursos corporativos de segurança, controle de acesso e conformidade. Inteligência de dados. Conecte seus dados GenAI aos dados de sua empresa no Databricks Lakehouse e forneça análises personalizadas para as partes interessadas do seu negócio. Mosaico AI Agent Serving. Implantar agentes na produção com escalabilidade e rigor operacional.

Feedback

Esta página foi útil?

Last updated on 2025-11-26