LLM2D
将符号执行集成到代码生成大型语言模型的微调中
Integrating Symbolic Execution into the Fine-Tuning of Code-Generating LLMs
作者: Marina Sakharova, Abhinav Anand, Mira Mezini
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.15210v1

摘要

arXiv:2504.15210v1 交叉类型公告 摘要:代码生成大型语言模型(LLMs)已成为现代软件开发中的重要工具,提高了生产力并加速了开发进程。本文旨在研究使用强化学习和直接偏好优化对代码生成LLMs进行微调,进一步提高其性能。为了实现这一目标,我们借助符号执行技术增强了奖励模型的训练数据,确保数据更加全面和客观。借助符号执行,我们构建了一个定制的数据集,更好地捕捉了代码评估的细微差别。在该数据集上微调的奖励模型,在估计生成代码的质量方面比基准模型CodeRL表现出显著的改进。借助奖励模型反馈进行训练的代码生成LLMs,在结果上与CodeRL基准模型相似。