LLM2D

摘要

arXiv:2502.02747v1 类别: cross 摘要: 最近的研究构建了各种结合大型语言模型 (LLMs) 和非 ML 工具的补丁代理，并在最先进的软件补丁基准 SWE-Bench 上取得了令人瞩目的结果。根据确定补丁工作流程的方式，现有的补丁代理可以分为依赖 LLMs 制定计划的代理基计划方法和遵循既定工作流程的人基计划方法。从宏观角度来看，代理基计划方法在补丁性能上表现优异，但成本高且稳定性有限。另一方面，人基计划方法虽然更稳定且更高效，但在一些工作流程限制上会牺牲其补丁性能。本文中，我们提出了 PatchPilot，一个在补丁效果、稳定性和成本效益之间找到平衡的代理补丁器。PatchPilot 提出了一种新的基于人的计划工作流程，包含五个部分：复现、定位、生成、验证和细化（其中细化是PatchPilot独有的）。我们为每个组成部分引入了新颖且定制的设计，以优化它们的效果和效率。通过对 SWE-Bench 基准进行广泛的实验，PatchPilot 在保持低成本（每个实例少于1美元）和高稳定性的情况下表现出优于现有开源方法的性能。我们还进行了详细的消融研究，以验证每个组成部分的关键设计。