摘要
arXiv:2502.01715v1 类型: cross
摘要: 基于结果监督的强化学习策略已被证明能够有效提升大型语言模型(LLMs)在代码生成任务中的性能。虽然基于过程监督的强化学习在处理多步骤推理任务方面表现出巨大的潜力,但其在代码生成任务中的有效性仍然不够充分并且解释不足。主要障碍在于构建高质量过程监督数据的资源密集型性质,这需要大量的人力专业知识和计算资源。为应对这一挑战,我们提出了一种“语句变异/重构-编译和执行验证”的策略:通过教师模型逐行变异和重构代码,并利用编译器执行结果自动标记每一行,从而生成逐行的过程监督数据,这对于训练过程监督的奖励模型至关重要。训练好的奖励模型随后被整合到PRLCoder框架中,并在多个基准测试上进行了实验验证。实验结果表明,基于过程监督的强化学习方法显著优于仅依赖结果监督的方法。值得注意的是,在处理复杂的代码生成任务时,基于过程监督的强化学习方法显示出明显的优势,确保了代码生成过程的完整性和生成结果的正确性。