LLM2D

摘要

arXiv:2409.04168v2 宣告类型: 替换-交叉摘要：为了减少对人工标注的需求，大型语言模型（LLMs）已被提议作为其他候选模型质量的评判者。LLM评判者的表现通常通过评估其在生成任务（如摘要或机器翻译）上与人类判断的相关性来衡量。相比之下，我们研究了LLM评判者在数学推理任务上的表现。这些任务需要多步推理，其解决方案的正确性是可以验证的，这使得评判更具客观性。我们进行了详细的表现分析，发现容易的样本容易评判，困难的样本难以评判。我们的分析揭示了评判表现与候选模型任务表现之间强烈的正相关关系，表明评判者倾向于偏好高质量的模型，即使它们的答案是错误的。作为结果，我们测试是否可以使用如词性标签等简单特征来预测LLM评判者的行为，发现可以正确预测70%-75%的评判结果。我们通过分析现实应用场景，展示了LLM评判者一致能够检测出平均表现更好的模型，但如果我们使用它们来提高任务性能，则表现不佳。