LLM2D

摘要

arXiv:2502.03492v1 Announce Type: 交叉摘要：教会大规模语言模型（LLMs）批评和改进自己的输出对于构建可以迭代改进的系统至关重要，但这一目标受到提供准确判断和有效建议能力的限制。在本文中，我们研究了代码生成的LLM批评者，并提出了CTRL框架，该框架通过强化学习训练批评模型，以生成最大化特定固定生成器模型校正性能的反馈，而无需人工监督。我们的结果表明，用CTRL训练的批评者显著提高了基础和更强生成器模型的通过率，并减少了累积错误。此外，我们展示了这些批评者模型作为准确的生成奖励模型的作用，并通过迭代批评-修订实现测试时的扩展，从而在具有挑战性的代码生成基准测试中实现了高达106.1%的相对改进。