LLM2D
代码编辑器基准:评估大型语言模型的代码编辑能力
CodeEditorBench: Evaluating Code Editing Capability of Large Language Models
作者: Jiawei Guo, Ziming Li, Xueling Liu, Kaijing Ma, Tianyu Zheng, Zhouliang Yu, Ding Pan, Yizhi LI, Ruibo Liu, Yue Wang, Shuyue Guo, Xingwei Qu, Xiang Yue, Ge Zhang, Wenhu Chen, Jie Fu
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2404.03543v3

摘要

arXiv:2404.03543v3 宣告类型: replace-cross 摘要:大型语言模型(LLMs)用于代码的领域正在迅速发展,代码编辑已成为一种关键能力。我们介绍了CodeEditorBench,一个评估框架,旨在严格评估LLMs在代码编辑任务中的性能,包括调试、翻译、润色和需求切换。与现有的仅专注于代码生成的基准不同,CodeEditorBench 强调软件开发的实际场景和实用方面。我们从五个来源精心整理了各种编程语言、复杂度水平和编辑任务的多样化的编程挑战和场景。对19种LLMs的评估表明,在CodeEditorBench中,闭源模型(尤其是Gemini-Ultra和GPT-4)的表现优于开源模型,突出了基于问题类型和提示敏感性模型性能的差异。CodeEditorBench旨在通过提供一个强大的平台来评估代码编辑能力,推动LLM的进步。我们将释放所有提示和数据集,以便社区能够扩展数据集并评估新兴的LLMs。通过引入CodeEditorBench,我们为LLMs在代码编辑领域的进步做出了贡献,并为研究人员和实践者提供了有价值的资源。