LLM2D
大型语言模型 Memorized bug 基准吗?
Are Large Language Models Memorizing Bug Benchmarks?
作者: Daniel Ramos, Claudia Mamede, Kush Jain, Paulo Canelas, Catarina Gamboa, Claire Le Goues
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2411.13323v3

摘要

arXiv:2411.13323v3 Announce Type: replace-cross 摘要:大型语言模型(LLMs)已经成为了软件工程中各种任务的重要组成部分,包括代码生成、bug检测和修复。为了评估这些领域中模型的表现,已经开发了包含实际软件项目中的bug的众多bug基准。然而,软件工程社区中日益增长的担忧是,这些基准可能无法可靠地反映真实的LLM性能,因为存在数据泄露的风险。尽管存在这一担忧,但有限的研究探讨了潜在泄露对模型性能的影响。在本文中,我们系统地评估了流行的LLM,以评估它们在广泛使用的bug基准中对数据泄露的脆弱性。为了识别潜在的泄露,我们使用了多个指标,包括对常用训练数据集中基准成员资格的研究,以及对负对数似然和n-克gram准确性分析。我们的发现表明,某些模型(特别是codegen-multi)在广泛使用的基准如Defects4J中表现出明显的记忆迹象,而最新使用更大数据集(如LLaMa 3.1)训练的模型仅显示出有限的泄露迹象。这些结果强调了仔细选择基准和采用稳健的评估指标的必要性,以充分评估模型的能力。