摘要
arXiv:2404.03543v3 宣告类型: replace-cross
摘要:大型语言模型(LLMs)用于代码的领域正在迅速发展,代码编辑已成为一种关键能力。我们介绍了CodeEditorBench,一个评估框架,旨在严格评估LLMs在代码编辑任务中的性能,包括调试、翻译、润色和需求切换。与现有的仅专注于代码生成的基准不同,CodeEditorBench 强调软件开发的实际场景和实用方面。我们从五个来源精心整理了各种编程语言、复杂度水平和编辑任务的多样化的编程挑战和场景。对19种LLMs的评估表明,在CodeEditorBench中,闭源模型(尤其是Gemini-Ultra和GPT-4)的表现优于开源模型,突出了基于问题类型和提示敏感性模型性能的差异。CodeEditorBench旨在通过提供一个强大的平台来评估代码编辑能力,推动LLM的进步。我们将释放所有提示和数据集,以便社区能够扩展数据集并评估新兴的LLMs。通过引入CodeEditorBench,我们为LLMs在代码编辑领域的进步做出了贡献,并为研究人员和实践者提供了有价值的资源。