摘要
arXiv:2505.05283v2 通知类型: 替换-交叉
摘要:代码大型语言模型(CodeLLMs)和代理在应对复杂软件工程任务方面展现了巨大的潜力。与传统的软件工程方法相比,CodeLLMs 和代理提供了更强的能力,并且可以灵活处理自然语言和代码的输入和输出。基准测试在评估 CodeLLMs 和代理的能力方面发挥着关键作用,指导它们的发展和部署。然而,尽管它们的重要性不断增加,对于 CodeLLMs 和代理的基准测试仍缺乏全面的综述。为了解决这一问题,本文提供了一个对现有 CodeLLMs 和代理基准的全面综述,研究和分析了461篇相关论文中的181个基准,覆盖了软件开发生命周期(SDLC)的不同阶段。我们的发现揭示了当前基准在覆盖方面的不平衡,大约60%的基准专注于 SDLC 的软件开发阶段,而需求工程和软件设计阶段分别仅受到5%和3%的关注。此外,Python 在审查的基准中占据了主导编程语言的地位。最后,本文指出了当前研究的挑战,并提出了未来的研究方向,旨在缩小代码大型语言模型和代理的理论能力与其在实际场景中的应用之间的差距。