摘要
arXiv:2410.17621v2 公告类型:替换
摘要:带有单元测试反馈的强化学习(RL)增强了大语言模型(LLMs)的代码生成,但依赖于仅在完成代码评估后提供的稀疏奖励,这限制了学习效率和逐步改进。当生成的代码未能通过所有单元测试时,就没有收到学习信号,阻碍了复杂任务的进展。为了解决这一问题,我们提出了一种过程奖励模型(PRM),该模型在生成过程中提供密集的、逐行的代码正确性反馈,模仿人类的代码改进,并提供即时指导。我们探索了用于训练PRMs的各种策略及其与RL框架的整合方式,发现将PRMs用作密集奖励以及用于价值函数初始化能够显著提升性能。我们的实验结果还突显了PRMs在增强RL驱动的代码生成方面的有效性,尤其是在长时序场景中。