LLM2D

摘要

arXiv:2410.12784v2 宣布类型: 更换摘要: 基于大语言模型的裁判已成为一种可扩展的替代人类评估的方案，并越来越多地用于评估、比较和改进模型。然而，基于大语言模型的裁判自身的可靠性很少受到关注。随着大语言模型的先进性提高，它们的回答变得更加复杂，需要更强的裁判来评估它们。现有的基准主要集中在裁判与人类偏好的对齐上，但往往会忽略那些事实和逻辑正确性难以通过众筹的人类偏好来衡量的更具挑战性的任务。为了解决这一问题，我们提出了一种新的评估框架，用于客观评估基于大语言模型的裁判。基于此框架，我们提出了JudgeBench，这是一个基准，用于评估涵盖知识、推理、数学和编程等领域的具有挑战性的回答对。JudgeBench 利用了将现有困难数据集转换为带有客观正确性反映偏好标签的具有挑战性的回答对的新型流水线。在对一组被提示的裁判、微调过的裁判、多代理裁判以及奖励模型进行全面评估后，我们发现JudgeBench 比之前的基准提出了更大的挑战，许多强大的模型（例如，GPT-4o）的表现仅仅略好于随机猜测。总体而言，JudgeBench 提供了一个可靠的平台，用于评估不断进化的基于大语言模型的裁判。数据和代码可在 https://github.com/ScalerLab/JudgeBench 获取。