LLM2D
CoCo-Bench:一个全面的代码基准,用于多任务大型语言模型评估
CoCo-Bench: A Comprehensive Code Benchmark For Multi-task Large Language Model Evaluation
作者: Wenjing Yin, Tianze Sun, Yijiong Yu, Jiawei Fang, Guangyao Su, Jiancheng Wang, Zekun Wang, Wei Wang, Ran Chen, Ziyun Dai, Shuai Yuan, Menghang Dong, Peng Luo, Dong Cao, Da Lei, Yajun Zhang, Hao Chen, Xiang Ma, Yong Liu, Weifeng Liu, Yuanjian Xu, Ji Pei
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20673v1

摘要

arXiv:2504.20673v1 Announce Type: cross 摘要:大型语言模型(LLMs)在软件工程中发挥着重要作用,擅长代码生成和维护等任务。然而,现有的基准测试往往局限于特定任务,缺乏能够反映真实世界应用的全面评价框架。为了解决这些问题,我们引入了CoCo-Bench(全面代码基准),旨在从四个关键维度评估LLMs:代码理解、代码生成、代码修改和代码审查。这些维度涵盖了开发者的重要需求,确保了更系统的和具代表性的评估。CoCo-Bench包含了多种编程语言和不同难度的任务,通过严格的手动审查确保数据质量和准确性。实证结果表明,CoCo-Bench与现有基准测试相一致,但揭示了模型性能的显著差异,有效地突显了优缺点。通过提供全面和客观的评估,CoCo-Bench为代码导向的LLMs提供了有价值的指导,有助于未来的研究和技术进步,并为该领域建立了可靠基准。