摘要
arXiv:2502.02747v1 类别: cross
摘要: 最近的研究构建了各种结合大型语言模型 (LLMs) 和非 ML 工具的补丁代理,并在最先进的软件补丁基准 SWE-Bench 上取得了令人瞩目的结果。根据确定补丁工作流程的方式,现有的补丁代理可以分为依赖 LLMs 制定计划的代理基计划方法和遵循既定工作流程的人基计划方法。从宏观角度来看,代理基计划方法在补丁性能上表现优异,但成本高且稳定性有限。另一方面,人基计划方法虽然更稳定且更高效,但在一些工作流程限制上会牺牲其补丁性能。本文中,我们提出了 PatchPilot,一个在补丁效果、稳定性和成本效益之间找到平衡的代理补丁器。PatchPilot 提出了一种新的基于人的计划工作流程,包含五个部分:复现、定位、生成、验证和细化(其中细化是PatchPilot独有的)。我们为每个组成部分引入了新颖且定制的设计,以优化它们的效果和效率。通过对 SWE-Bench 基准进行广泛的实验,PatchPilot 在保持低成本(每个实例少于1美元)和高稳定性的情况下表现出优于现有开源方法的性能。我们还进行了详细的消融研究,以验证每个组成部分的关键设计。