LLM2D

摘要

arXiv:2504.20673v1 Announce Type: cross 摘要：大型语言模型（LLMs）在软件工程中发挥着重要作用，擅长代码生成和维护等任务。然而，现有的基准测试往往局限于特定任务，缺乏能够反映真实世界应用的全面评价框架。为了解决这些问题，我们引入了CoCo-Bench（全面代码基准），旨在从四个关键维度评估LLMs：代码理解、代码生成、代码修改和代码审查。这些维度涵盖了开发者的重要需求，确保了更系统的和具代表性的评估。CoCo-Bench包含了多种编程语言和不同难度的任务，通过严格的手动审查确保数据质量和准确性。实证结果表明，CoCo-Bench与现有基准测试相一致，但揭示了模型性能的显著差异，有效地突显了优缺点。通过提供全面和客观的评估，CoCo-Bench为代码导向的LLMs提供了有价值的指导，有助于未来的研究和技术进步，并为该领域建立了可靠基准。