LLM2D

摘要

arXiv:2410.17621v2 公告类型：替换摘要：带有单元测试反馈的强化学习（RL）增强了大语言模型（LLMs）的代码生成，但依赖于仅在完成代码评估后提供的稀疏奖励，这限制了学习效率和逐步改进。当生成的代码未能通过所有单元测试时，就没有收到学习信号，阻碍了复杂任务的进展。为了解决这一问题，我们提出了一种过程奖励模型（PRM），该模型在生成过程中提供密集的、逐行的代码正确性反馈，模仿人类的代码改进，并提供即时指导。我们探索了用于训练PRMs的各种策略及其与RL框架的整合方式，发现将PRMs用作密集奖励以及用于价值函数初始化能够显著提升性能。我们的实验结果还突显了PRMs在增强RL驱动的代码生成方面的有效性，尤其是在长时序场景中。