LLM2D
过程监督引导的策略优化代码生成
Process Supervision-Guided Policy Optimization for Code Generation
作者: Ning Dai, Zheng Wu, Renjie Zheng, Ziyun Wei, Wenlei Shi, Xing Jin, Guanlin Liu, Chen Dun, Liang Huang, Lin Yan
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2410.17621v2

摘要

arXiv:2410.17621v2 公告类型: 替换 摘要: 基于单元测试反馈的强化学习(RL)增强了大语言模型(LLMs)的代码生成能力,但这种方法依赖于仅在完整代码评估后提供的稀疏奖励,这限制了学习效率和逐步改进。当生成的代码失败所有单元测试时,不会接收到任何学习信号,这阻碍了复杂任务的进步。为了解决这个问题,我们提出了一个进程奖励模型(PRM),它在生成过程中提供密集的、逐行的代码正确性反馈,模拟了人类代码的精炼过程,并提供了即时指导。我们探讨了各种训练PRM的方法以及将其集成到RL框架中的策略,发现将PRM作为密集奖励以及作为价值函数初始化器时,显著提升了性能。我们的实验结果还强调了PRM在提高基于RL的代码生成方面的有效性,尤其是在长期任务中。