LLM2D

摘要

arXiv:2505.08827v1 宣言类型: cross 摘要：我们演示了大型语言模型可以通过自我评判有效地自我提高，而无需参考答案，利用生成和验证答案之间的固有不对称性。我们在 Countdown 拼图和 MIT 积分竞赛问题上的实验表明，模型可以在没有真实答案的情况下提供可靠的奖励信号，从而在以前不可能的领域实现强化学习。通过实施自我评判，我们在保持与正式验证一致的情况下实现了显著的性能提升。在与合成问题生成结合使用时，我们建立了一个完整的自我改进循环，其中模型生成练习问题、解决这些问题并评估自己的表现，Qwen 2.5 7B 在基准之上实现了 8% 的改进，并在积分任务上超越了 GPT-4o 的性能。我们的研究结果表明，LLM 判定者可以为训练模型提供有效的奖励信号，解锁了许多由于难以创建程序奖励而受限的强化学习环境。这暗示了一个潜在的范式转变，即通过自我导向学习而非人工指导训练来实现 AI 系统的持续改进，这可能加快了在稀缺训练数据或复杂评估要求领域的进步。