LLM2D
自我奖励自我改进
Self Rewarding Self Improving
作者: Toby Simonds, Kevin Lopez, Akira Yoshiyama, Dominique Garmier
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.08827v1

摘要

arXiv:2505.08827v1 宣言类型: cross 摘要:我们演示了大型语言模型可以通过自我评判有效地自我提高,而无需参考答案,利用生成和验证答案之间的固有不对称性。我们在 Countdown 拼图和 MIT 积分竞赛问题上的实验表明,模型可以在没有真实答案的情况下提供可靠的奖励信号,从而在以前不可能的领域实现强化学习。通过实施自我评判,我们在保持与正式验证一致的情况下实现了显著的性能提升。在与合成问题生成结合使用时,我们建立了一个完整的自我改进循环,其中模型生成练习问题、解决这些问题并评估自己的表现,Qwen 2.5 7B 在基准之上实现了 8% 的改进,并在积分任务上超越了 GPT-4o 的性能。我们的研究结果表明,LLM 判定者可以为训练模型提供有效的奖励信号,解锁了许多由于难以创建程序奖励而受限的强化学习环境。这暗示了一个潜在的范式转变,即通过自我导向学习而非人工指导训练来实现 AI 系统的持续改进,这可能加快了在稀缺训练数据或复杂评估要求领域的进步。