LLM2D

摘要

arXiv:2404.03543v3 宣告类型: replace-cross 摘要：大型语言模型（LLMs）用于代码的领域正在迅速发展，代码编辑已成为一种关键能力。我们介绍了CodeEditorBench，一个评估框架，旨在严格评估LLMs在代码编辑任务中的性能，包括调试、翻译、润色和需求切换。与现有的仅专注于代码生成的基准不同，CodeEditorBench 强调软件开发的实际场景和实用方面。我们从五个来源精心整理了各种编程语言、复杂度水平和编辑任务的多样化的编程挑战和场景。对19种LLMs的评估表明，在CodeEditorBench中，闭源模型（尤其是Gemini-Ultra和GPT-4）的表现优于开源模型，突出了基于问题类型和提示敏感性模型性能的差异。CodeEditorBench旨在通过提供一个强大的平台来评估代码编辑能力，推动LLM的进步。我们将释放所有提示和数据集，以便社区能够扩展数据集并评估新兴的LLMs。通过引入CodeEditorBench，我们为LLMs在代码编辑领域的进步做出了贡献，并为研究人员和实践者提供了有价值的资源。