LLM2D

摘要

arXiv:2504.00050v1 评价类型: cross 摘要：大型语言模型（LLMs）作为评估工具的兴起为替代人类注释提供了可扩展的替代方案，但在需要复杂推理的领域，现有的监督微调（SFT）方法往往收效甚微。在这项工作中，我们研究了LLM法官是否真正受益于增强的推理能力。通过对各种评估任务中推理需求的详细分析，我们揭示了SFT性能收益与复杂推理需求样本的比例之间存在负相关关系，突显了在这些情况下SFT的局限性。为了解决这一问题，我们提出了JudgeLRM，这一系列以评估为导向的LLM模型，它们是通过评判者导向、结果驱动的强化学习（RL）进行训练的。JudgeLRM模型在所有测试中均优于SFT微调的模型以及最先进的推理模型。值得注意的是，JudgeLRM-3B超过了GPT-4，并且在F1分数上，JudgeLRM-7B比DeepSeek-R1高出了2.79%，特别是在需要深层推理的法官任务中表现尤为出色。