LLM2D

摘要

arXiv:2504.15210v2 宣告类型：替换交叉摘要：代码生成大型语言模型（LLMs）已成为现代软件开发中的关键技术工具，提升了工作效率并加速了开发进程。本文旨在探讨使用强化学习和直接偏好优化对代码生成LLMs进行微调，进一步提高其性能。为实现这一目标，我们借助符号执行技术增强奖励模型的训练数据，确保数据更加全面和客观。通过符号执行，我们创建了一个自定义数据集，更好地捕捉代码评估中的细微差异。我们的奖励模型在这一数据集上微调后，在评估生成代码的质量方面比基准模型CodeRL有了显著的改进。借助奖励模型反馈进行训练的代码生成LLMs在结果上与CodeRL基准相当。