LLM2D

摘要

arXiv:2502.10961v1 宣告类型: cross 摘要：自动评估语言模型（LMs），即使用一个评分LM来评估候选LM，是一种加速评估过程及其相关成本的方法。但这种方法带来了一个悖论：我们如何能信任一个据说比候选LM弱的评分LM来评估超出两个模型能力范围的问题？例如，今天的LM在研究生级物理和奥林匹克级数学方面挣扎，使其在这些领域不可靠的评分者。我们证明，提供特权信息——如正确答案或问题特定的指南——可以改进对这些前沿问题的自动化评估。这种方法提供了两个关键优势。首先，它扩展了LMs评分器适用的问题范围。具体来说，较弱的模型现在可以评估较强模型的预测。其次，特权信息可以用来设计更具挑战性问题的更简单的变体，从而在任务表现普遍较低的情况下改善不同LMs的区分度。通过这种方法，通用的LM评分器在RewardBench上的性能达到了最先进的水平，超越了几乎所有专门调优的模型。LM评分器在Vibe-Eval上也优于个体的人类评分者，并在奥林匹克级数学问题上接近人类专家评分者。