LLM2D

摘要

arXiv:2502.06215v1 宣布类型：交叉摘要：大型语言模型（LLMs）在软件工程（SE）任务中得到广泛应用，如代码生成和自动化程序修复。然而，它们对广泛且通常未公开的预训练数据集的依赖性引发了对数据泄露的重大关注，即评估基准数据在模型构建阶段无意中被LLMs“察觉”。数据泄露问题可能会严重削弱基于LLM的研究和评估的有效性。尽管LLMs在SE社区中的使用不断增加，但目前还没有全面的研究评估LLMs在SE基准中的数据泄露程度。为弥补这一空白，本文对83个与LLMs相关的SE基准中的数据泄露进行了第一次大规模分析。我们的结果显示，总体而言，SE基准中的数据泄露较小，Python、Java和C/C++基准的数据泄露比分别为4.8%、2.8%和0.7%。然而，一些基准表现出相对较高的泄露比，这引发了对其评估偏见的担忧。例如，QuixBugs和BigCloneBench的数据泄露比分别为100.0%和55.7%。此外，我们观察到数据泄露对LLM评估产生了显著影响。我们还确定了高数据泄露的主要原因，如将基准数据直接包含在预训练数据集中以及使用LeetCode等编程平台进行基准构建。为解决数据泄露问题，我们提出了**LessLeak-Bench**，这是一个新的基准，从83个SE基准中移除了泄露样本，从而在未来的研究中能够提供更可靠的LLM评估。我们的研究表明增强了对SE基准中数据泄露的理解，并为涉及SE中LLMs的未来研究提供了宝贵的见解。