LLM2D

摘要

arXiv:2410.17621v2 公告类型: 替换摘要: 基于单元测试反馈的强化学习（RL）增强了大语言模型（LLMs）的代码生成能力，但这种方法依赖于仅在完整代码评估后提供的稀疏奖励，这限制了学习效率和逐步改进。当生成的代码失败所有单元测试时，不会接收到任何学习信号，这阻碍了复杂任务的进步。为了解决这个问题，我们提出了一个进程奖励模型（PRM），它在生成过程中提供密集的、逐行的代码正确性反馈，模拟了人类代码的精炼过程，并提供了即时指导。我们探讨了各种训练PRM的方法以及将其集成到RL框架中的策略，发现将PRM作为密集奖励以及作为价值函数初始化器时，显著提升了性能。我们的实验结果还强调了PRM在提高基于RL的代码生成方面的有效性，尤其是在长期任务中。