LLM2D

摘要

arXiv:2504.15210v1 交叉类型公告摘要：代码生成大型语言模型（LLMs）已成为现代软件开发中的重要工具，提高了生产力并加速了开发进程。本文旨在研究使用强化学习和直接偏好优化对代码生成LLMs进行微调，进一步提高其性能。为了实现这一目标，我们借助符号执行技术增强了奖励模型的训练数据，确保数据更加全面和客观。借助符号执行，我们构建了一个定制的数据集，更好地捕捉了代码评估的细微差别。在该数据集上微调的奖励模型，在估计生成代码的质量方面比基准模型CodeRL表现出显著的改进。借助奖励模型反馈进行训练的代码生成LLMs，在结果上与CodeRL基准模型相似。