LLM2D

摘要

arXiv:2504.15564v1 类型: cross 摘要: 近期在大型语言模型（LLMs）方面的进展显示了其在代码生成任务中的有希望的能力。然而，目前大多数现有的基准主要集中在孤立的函数上，并未能捕捉到现实世界中类级软件结构的复杂性。为了弥补这一差距，我们引入了一个大规模的、从13,174个开源项目中精选的Python类级数据集。该数据集包含超过842,000个类骨架，每个骨架包括类和方法签名，如果可用的话，还包括相关的文档字符串。我们保留了对于现实软件开发情景至关重要的结构和上下文依赖性，并通过静态代码指标丰富了数据集，以支持下游分析。为了评估数据集的价值，我们使用提取的类骨架作为GPT-4的提示，生成完整的类实现。结果显示，LLM生成的类在词法和结构上与人类编写的版本表现出很强的相似性，分别的ROUGE@L、BLEU和TSED得分为0.80、0.59和0.73。这些发现证实，从真实世界的类骨架中推导出的结构良好提示，显著增强了LLM在类级代码生成方面的性能。该数据集为在现实软件工程情境下评估、训练和改进LLM提供了宝贵资源。