LLM2D

摘要

大型语言模型 (LLM) 彻底改变了软件工程 (SE)，在各种编码任务中展现出非凡的能力。虽然最近的努力已经产生了基于 LLM 的自主软件代理，用于端到端的开发任务，但这些系统通常针对特定的 SE 任务而设计。我们介绍了 HyperAgent，这是一种新型的通用多代理系统，旨在通过模仿人类开发人员的工作流程来解决跨不同编程语言的广泛 SE 任务。HyperAgent 包含四个专门的代理——规划器、导航器、代码编辑器和执行器。HyperAgent 管理 SE 任务的整个生命周期，从最初的概念到最终的验证。通过广泛的评估，HyperAgent 在各种 SE 任务中实现了最先进的性能：它在 SWE-Bench-Lite 上的 GitHub 问题解决方面获得了 25.01% 的成功率，在 SWE-Bench-Verified 上获得了 31.40% 的成功率，超过了现有方法。此外，HyperAgent 在仓库级代码生成 (RepoExec) 以及故障定位和程序修复 (Defects4J) 中展示了 SOTA 性能，通常优于专门的系统。这项工作代表了朝着能够处理各种领域和语言中的复杂多步骤 SE 任务的通用自主代理迈出的重要一步，有可能改变 AI 辅助软件开发实践。