摘要
arXiv:2504.15210v2 宣告类型:替换交叉
摘要:代码生成大型语言模型(LLMs)已成为现代软件开发中的关键技术工具,提升了工作效率并加速了开发进程。本文旨在探讨使用强化学习和直接偏好优化对代码生成LLMs进行微调,进一步提高其性能。为实现这一目标,我们借助符号执行技术增强奖励模型的训练数据,确保数据更加全面和客观。通过符号执行,我们创建了一个自定义数据集,更好地捕捉代码评估中的细微差异。我们的奖励模型在这一数据集上微调后,在评估生成代码的质量方面比基准模型CodeRL有了显著的改进。借助奖励模型反馈进行训练的代码生成LLMs在结果上与CodeRL基准相当。