LLM2D

摘要

arXiv:2411.13323v3 Announce Type: replace-cross 摘要：大型语言模型（LLMs）已经成为了软件工程中各种任务的重要组成部分，包括代码生成、bug检测和修复。为了评估这些领域中模型的表现，已经开发了包含实际软件项目中的bug的众多bug基准。然而，软件工程社区中日益增长的担忧是，这些基准可能无法可靠地反映真实的LLM性能，因为存在数据泄露的风险。尽管存在这一担忧，但有限的研究探讨了潜在泄露对模型性能的影响。在本文中，我们系统地评估了流行的LLM，以评估它们在广泛使用的bug基准中对数据泄露的脆弱性。为了识别潜在的泄露，我们使用了多个指标，包括对常用训练数据集中基准成员资格的研究，以及对负对数似然和n-克gram准确性分析。我们的发现表明，某些模型（特别是codegen-multi）在广泛使用的基准如Defects4J中表现出明显的记忆迹象，而最新使用更大数据集（如LLaMa 3.1）训练的模型仅显示出有限的泄露迹象。这些结果强调了仔细选择基准和采用稳健的评估指标的必要性，以充分评估模型的能力。