摘要
在项目级别自动修复程序可能在人类活动的各个领域开辟尚未见过的机会。自 SWE-Bench 挑战提出以来,我们看到了许多解决方案。补丁生成是程序修复的一部分,基于测试套件的对话式补丁生成已证明其有效性。然而,对话式补丁生成的潜力尚未在 SWE-Bench 上得到具体评估。本研究报告了旨在评估对话式补丁生成对 SWE-Bench 中问题的个体有效性的实验结果。实验表明,基于 LLaMA 3.1 70B 的简单对话管道可以在 47% 的情况下生成有效的补丁,这与 SWE-Bench 上程序修复的最新技术相当。