摘要
arXiv:2505.10320v1 评估类型:横跨
摘要:AI的进步受评估质量的限制,而强大的LLM-as-a-Judge模型已被证明是核心解决方案。通过更强的逻辑推理能力增强判断能力,这激发了寻找训练这类模型进行思考的最佳方法的需求。在这项工作中,我们介绍了J1,这是一种强化学习方法来训练这样的模型。我们的方法将可验证的和不可验证的提示转换为具有可验证奖励的判断任务,这些奖励激励思考并减轻判断偏见。特别地,当以这些规模进行训练时,我们的方法优于所有其他现有的8B或70B模型,包括从DeepSeek-R1蒸馏而来的模型。J1在某些基准测试中也优于o1-mini,甚至优于R1,尽管训练了一个更小的模型。我们提供了Pairwise-J1与Pointwise-J1模型、离线与在线训练方法、奖励策略、种子提示以及思考长度和内容变化的比较分析。我们发现,我们的模型通过学会概述评估标准、将模型响应与自动生成的参考答案进行比较以及重新评估模型响应的正确性,从而做出更好的判断。