LLM2D
评分者应该作弊:特权信息 enables 专家级自动化评估
Graders should cheat: privileged information enables expert-level automated evaluations
作者: Jin Peng Zhou, S\'ebastien M. R. Arnold, Nan Ding, Kilian Q. Weinberger, Nan Hua, Fei Sha
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.10961v1

摘要

arXiv:2502.10961v1 宣告类型: cross 摘要:自动评估语言模型(LMs),即使用一个评分LM来评估候选LM,是一种加速评估过程及其相关成本的方法。但这种方法带来了一个悖论:我们如何能信任一个据说比候选LM弱的评分LM来评估超出两个模型能力范围的问题?例如,今天的LM在研究生级物理和奥林匹克级数学方面挣扎,使其在这些领域不可靠的评分者。 我们证明,提供特权信息——如正确答案或问题特定的指南——可以改进对这些前沿问题的自动化评估。这种方法提供了两个关键优势。首先,它扩展了LMs评分器适用的问题范围。具体来说,较弱的模型现在可以评估较强模型的预测。其次,特权信息可以用来设计更具挑战性问题的更简单的变体,从而在任务表现普遍较低的情况下改善不同LMs的区分度。通过这种方法,通用的LM评分器在RewardBench上的性能达到了最先进的水平,超越了几乎所有专门调优的模型。LM评分器在Vibe-Eval上也优于个体的人类评分者,并在奥林匹克级数学问题上接近人类专家评分者。