摘要
arXiv:2504.00050v1 评价类型: cross
摘要:大型语言模型(LLMs)作为评估工具的兴起为替代人类注释提供了可扩展的替代方案,但在需要复杂推理的领域,现有的监督微调(SFT)方法往往收效甚微。在这项工作中,我们研究了LLM法官是否真正受益于增强的推理能力。通过对各种评估任务中推理需求的详细分析,我们揭示了SFT性能收益与复杂推理需求样本的比例之间存在负相关关系,突显了在这些情况下SFT的局限性。为了解决这一问题,我们提出了JudgeLRM,这一系列以评估为导向的LLM模型,它们是通过评判者导向、结果驱动的强化学习(RL)进行训练的。JudgeLRM模型在所有测试中均优于SFT微调的模型以及最先进的推理模型。值得注意的是,JudgeLRM-3B超过了GPT-4,并且在F1分数上,JudgeLRM-7B比DeepSeek-R1高出了2.79%,特别是在需要深层推理的法官任务中表现尤为出色。