摘要
arXiv:2504.14757v1 类型: cross
摘要:大规模语言模型(LLMs)通过基于代理的方法正在改变自动程序修复(APR)的格局,这些方法能够定位错误、生成补丁并验证修复。然而,高质量、大规模的训练数据集的缺乏,尤其是那些具有可验证输出和中间推理轨迹的数据集——限制了进步,特别是对于开源模型。在本文中,我们提出了一种名为SWE-Synth的框架,用于在仓库级别生成真实的、可验证的和过程意识的错误修复数据集。SWE-Synth利用了LLM代理来模拟调试工作流程,不仅生成错误修复对,还生成测试用例和结构化的修复轨迹。与人工策划的数据集相比,我们的方法在最小的人力投入下实现了规模扩展,同时保持了语境的丰富性和正确性。实验结果表明,使用SWE-Synth训练的模型在SWE-Bench Lite上的表现优于使用真实世界数据集训练的模型,提高了2.3%。我们的结果强调了合成、代理生成的数据在推动程序修复和软件工程自动化领域的最新进展方面的潜力。