LLM2D

摘要

arXiv:2505.05283v1 声明类型: cross 摘要: 代码大型语言模型（CodeLLMs）和代理在解决复杂软件工程任务方面展现出了极大的潜力。与传统软件工程方法相比，CodeLLMs 和代理提供了更强的能力，并能够灵活地处理自然语言和代码的输入和输出。基准测试在评估 CodeLLMs 和代理的能力、指导其开发和部署方面起着关键作用。然而，尽管其重要性不断增加，仍然缺乏对 CodeLLMs 和代理基准的全面审查。为了填补这一空白，本文对现有的 CodeLLMs 和代理基准进行了全面审查，研究和分析了 461 篇相关论文中的 181 个基准，涵盖了软件开发生命周期（SDLC）的不同阶段。我们的研究发现，当前基准的覆盖面存在明显的不平衡，约 60% 的基准集中在 SDLC 的软件开发阶段，而需求工程阶段和软件设计阶段分别只得到了 5% 和 3% 的关注。此外，Python 成为审查基准中主要编程语言。最后，本文指出了当前研究的挑战，并提出了未来方向，旨在缩小理论上的 CodeLLMs 和代理能力与其在实际场景中的应用之间的差距。