LLM2D

摘要

arXiv:2502.07046v2 通告类型: replace-cross 摘要：大规模语言模型（LLMs），如基于数十亿参数训练的变压器神经网络，在软件工程（SE）中变得越来越普遍。这些模型在包含了代码仓库的大规模数据集上训练，展示了在SE任务中出色的能力。然而，评估它们的效果面临着重大挑战，主要是因为用于训练和评估的数据集之间可能会存在重叠。为了解决这一问题，我们引入了SnipGen，这是一种全面的代码库挖掘框架，旨在利用提示工程来跨各种下游任务生成代码。SnipGen旨在通过生成稳健的测试平台并精心构建数据点来辅助研究人员和实践者评估LLMs在代码相关任务中的效果，从而减轻数据污染问题。在我们的探索性研究中，SnipGen从GitHub提交的338,000次最近代码更改中挖掘了约227,000个数据点，重点关注方法级别。SnipGen具有一个提示模板集合，可以结合生成类似于思考链的提示序列，从而对LLMs的代码生成质量进行细致的评估。通过提供挖掘工具、方法论和数据集，SnipGen赋能研究人员和实践者在软件工程上下文中严格评估和解读LLMs的表现。