LLM2D
大规模类级别基准数据集,用于使用LLMs进行代码生成
A Large-scale Class-level Benchmark Dataset for Code Generation with LLMs
作者: Musfiqur Rahman, SayedHassan Khatoonabadi, Emad Shihab
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2504.15564v1

摘要

arXiv:2504.15564v1 类型: cross 摘要: 近期在大型语言模型(LLMs)方面的进展显示了其在代码生成任务中的有希望的能力。然而,目前大多数现有的基准主要集中在孤立的函数上,并未能捕捉到现实世界中类级软件结构的复杂性。为了弥补这一差距,我们引入了一个大规模的、从13,174个开源项目中精选的Python类级数据集。该数据集包含超过842,000个类骨架,每个骨架包括类和方法签名,如果可用的话,还包括相关的文档字符串。我们保留了对于现实软件开发情景至关重要的结构和上下文依赖性,并通过静态代码指标丰富了数据集,以支持下游分析。为了评估数据集的价值,我们使用提取的类骨架作为GPT-4的提示,生成完整的类实现。结果显示,LLM生成的类在词法和结构上与人类编写的版本表现出很强的相似性,分别的ROUGE@L、BLEU和TSED得分为0.80、0.59和0.73。这些发现证实,从真实世界的类骨架中推导出的结构良好提示,显著增强了LLM在类级代码生成方面的性能。该数据集为在现实软件工程情境下评估、训练和改进LLM提供了宝贵资源。