摘要
arXiv:2504.20673v1 Announce Type: cross
摘要:大型语言模型(LLMs)在软件工程中发挥着重要作用,擅长代码生成和维护等任务。然而,现有的基准测试往往局限于特定任务,缺乏能够反映真实世界应用的全面评价框架。为了解决这些问题,我们引入了CoCo-Bench(全面代码基准),旨在从四个关键维度评估LLMs:代码理解、代码生成、代码修改和代码审查。这些维度涵盖了开发者的重要需求,确保了更系统的和具代表性的评估。CoCo-Bench包含了多种编程语言和不同难度的任务,通过严格的手动审查确保数据质量和准确性。实证结果表明,CoCo-Bench与现有基准测试相一致,但揭示了模型性能的显著差异,有效地突显了优缺点。通过提供全面和客观的评估,CoCo-Bench为代码导向的LLMs提供了有价值的指导,有助于未来的研究和技术进步,并为该领域建立了可靠基准。