LLM2D
通过强化学习教学语言模型进行批评
Teaching Language Models to Critique via Reinforcement Learning
作者: Zhihui Xie, Jie chen, Liyu Chen, Weichao Mao, Jingjing Xu, Lingpeng Kong
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2502.03492v1

摘要

arXiv:2502.03492v1 Announce Type: 交叉 摘要:教会大规模语言模型(LLMs)批评和改进自己的输出对于构建可以迭代改进的系统至关重要,但这一目标受到提供准确判断和有效建议能力的限制。在本文中,我们研究了代码生成的LLM批评者,并提出了CTRL框架,该框架通过强化学习训练批评模型,以生成最大化特定固定生成器模型校正性能的反馈,而无需人工监督。我们的结果表明,用CTRL训练的批评者显著提高了基础和更强生成器模型的通过率,并减少了累积错误。此外,我们展示了这些批评者模型作为准确的生成奖励模型的作用,并通过迭代批评-修订实现测试时的扩展,从而在具有挑战性的代码生成基准测试中实现了高达106.1%的相对改进。