LLM2D
从计算到裁决:考察LLM法官在数学推理任务中的表现
From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks
作者: Andreas Stephan, Dawei Zhu, Matthias A{\ss}enmacher, Xiaoyu Shen, Benjamin Roth
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2409.04168v2

摘要

arXiv:2409.04168v2 宣告类型: 替换-交叉 摘要:为了减少对人工标注的需求,大型语言模型(LLMs)已被提议作为其他候选模型质量的评判者。LLM评判者的表现通常通过评估其在生成任务(如摘要或机器翻译)上与人类判断的相关性来衡量。相比之下,我们研究了LLM评判者在数学推理任务上的表现。这些任务需要多步推理,其解决方案的正确性是可以验证的,这使得评判更具客观性。我们进行了详细的表现分析,发现容易的样本容易评判,困难的样本难以评判。我们的分析揭示了评判表现与候选模型任务表现之间强烈的正相关关系,表明评判者倾向于偏好高质量的模型,即使它们的答案是错误的。作为结果,我们测试是否可以使用如词性标签等简单特征来预测LLM评判者的行为,发现可以正确预测70%-75%的评判结果。我们通过分析现实应用场景,展示了LLM评判者一致能够检测出平均表现更好的模型,但如果我们使用它们来提高任务性能,则表现不佳。