LLM2D
基于多个弱评估者的语言模型偏好评价
Language Model Preference Evaluation with Multiple Weak Evaluators
作者: Zhengyu Hu, Jieyu Zhang, Zhihan Xiong, Alexander Ratner, Hui Xiong, Ranjay Krishna
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2410.12869v3

摘要

arXiv:2410.12869v3 宣布类型: replace-cross 摘要:尽管大型语言模型(LLMs)取得了令人瞩目的成功,但在评估其输出的质量方面,尤其是在“偏好”方面的评估仍然是一个关键挑战。现有工作通常利用另一LLM作为裁判对LLM输出进行成对比较,但这种基于模型的评估者是一个“弱评估者”,因为存在“矛盾偏好”的情况,例如输出A优于B,B优于C,但C又优于A,导致评价结果矛盾。为了解决这个问题,我们引入了GED(偏好图集合与去噪方法),这是一种新颖的方法,利用多个基于模型的评估者构建偏好图,然后通过对这些图进行集成和去噪,以获得更准确、无矛盾的评价结果。特别地,我们的方法包括两个主要阶段:将评价汇总到一个统一的图中,并应用去噪过程消除循环不一致性,确保有向无环图(DAG)结构。我们为我们的框架提供了理论保证,证明了其在恢复真实偏好结构方面的有效性。在十个基准测试上的广泛实验显示,GED在三种应用场景中表现优越:模型排名、响应选择和模型对齐任务。值得注意的是,GED结合了小型LLM评估者(如Llama3-8B、Mistral-7B、Qwen2-7B)来超越更强的评估者(如Qwen2-72B),展示了其在提高评价可靠性并增强模型性能方面的有效性。