Partilhar via


Definir "qualidade": Conjuntos de avaliação

Este artigo descreve conjuntos de avaliação e como eles ajudam a garantir a qualidade do seu aplicativo.

O que é um conjunto de avaliação?

Para medir a qualidade, a Databricks recomenda a criação de um conjunto de avaliação com rótulos humanos. Um conjunto de avaliação é um conjunto representativo e com curadoria de perguntas, juntamente com respostas fundamentadas e (opcionalmente) os documentos comprovativos corretos que devem ser recuperados. O contributo humano é crucial neste processo, uma vez que garante que o conjunto de avaliações reflete com exatidão as expectativas e os requisitos dos utilizadores finais.

A curadoria de etiquetas humanas pode ser um processo demorado. Você pode começar criando um conjunto de avaliação que inclui apenas perguntas e adicionar as respostas básicas ao longo do tempo. Mosaic AI Agent Evaluation pode avaliar a qualidade da sua cadeia sem a verdade fundamental, embora, se a verdade fundamental estiver disponível, ele calcule métricas adicionais, como a precisão da resposta.

Elementos de um bom conjunto de avaliação

Um bom conjunto de avaliação tem as seguintes características:

  • Representante: Reflete com precisão a variedade de solicitações que o aplicativo encontrará na produção.
  • Desafiante: O conjunto deve incluir casos difíceis e diversos para testar efetivamente as capacidades do modelo. Idealmente, inclui exemplos adversariais, como perguntas que tentam injeção de prompt ou perguntas que tentam gerar respostas inadequadas do LLM.
  • Continuamente atualizado: O conjunto deve ser atualizado periodicamente para refletir como o aplicativo é usado na produção, a natureza variável dos dados indexados e quaisquer alterações nos requisitos do aplicativo.

A Databricks recomenda pelo menos 30 perguntas no seu conjunto de avaliação e, idealmente, 100 a 200. Os melhores conjuntos de avaliação crescerão ao longo do tempo para conter 1.000 perguntas.

Conjuntos de treinamento, teste e validação

Para evitar sobreajustes, a Databricks recomenda dividir seu conjunto de avaliação em conjuntos de treinamento, teste e validação:

  • Conjunto de treinamento: ~70% das perguntas. Usado para uma avaliação inicial de cada experimento para identificar os de maior potencial.
  • Conjunto de testes: ~20% das perguntas. Usado para avaliar os experimentos de melhor desempenho do conjunto de treinamento.
  • Conjunto de validação: ~10% das perguntas. Usado para uma verificação de validação final antes de implantar um experimento na produção.

O Mosaic AI Agent Evaluation ajuda você a criar um conjunto de avaliações, fornecendo uma interface de bate-papo baseada na Web para que as partes interessadas forneçam feedback sobre os resultados do aplicativo. Os resultados da cadeia e o feedback das partes interessadas são salvos em Tabelas Delta, que podem ser selecionadas em um conjunto de avaliação. Consulte criação de um conjunto de avaliação na seção de implementação deste guia prático para obter instruções práticas, incluindo código de exemplo.