LLM2D
软件开发生命周期视角:代码LLMs和代理的基准调查
Software Development Life Cycle Perspective: A Survey of Benchmarks for CodeLLMs and Agents
作者: Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Bin Shi
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2505.05283v1

摘要

arXiv:2505.05283v1 声明类型: cross 摘要: 代码大型语言模型(CodeLLMs)和代理在解决复杂软件工程任务方面展现出了极大的潜力。与传统软件工程方法相比,CodeLLMs 和代理提供了更强的能力,并能够灵活地处理自然语言和代码的输入和输出。基准测试在评估 CodeLLMs 和代理的能力、指导其开发和部署方面起着关键作用。然而,尽管其重要性不断增加,仍然缺乏对 CodeLLMs 和代理基准的全面审查。为了填补这一空白,本文对现有的 CodeLLMs 和代理基准进行了全面审查,研究和分析了 461 篇相关论文中的 181 个基准,涵盖了软件开发生命周期(SDLC)的不同阶段。我们的研究发现,当前基准的覆盖面存在明显的不平衡,约 60% 的基准集中在 SDLC 的软件开发阶段,而需求工程阶段和软件设计阶段分别只得到了 5% 和 3% 的关注。此外,Python 成为审查基准中主要编程语言。最后,本文指出了当前研究的挑战,并提出了未来方向,旨在缩小理论上的 CodeLLMs 和代理能力与其在实际场景中的应用之间的差距。