LLM2D
漏洞检测数据集中的数据质量问题
Data Quality Issues in Vulnerability Detection Datasets
作者: Yuejun Guo, Seifeddine Bettaieb
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.06030v1

摘要

漏洞检测是识别软件中潜在弱点以确保网络安全的一项至关重要的任务,但也极具挑战性。近年来,深度学习 (DL) 在自动化检测过程中取得了重大进展。由于其复杂的多分层结构和大量的参数,DL 模型需要大量的标记(易受攻击或安全)源代码来获取知识,以便有效地区分易受攻击代码和安全代码。在相关文献中,许多数据集被创建用于训练用于此目的的 DL 模型。然而,这些数据集存在一些问题,会导致 DL 模型的检测精度较低。本文定义了三个关键问题(即数据不平衡、漏洞覆盖率低、漏洞分布偏差),这些问题会显著影响模型性能,以及三个次要问题(即源代码错误、错误标记、噪声历史数据),这些问题也会影响性能,但可以通过专门的预处理过程解决。此外,我们对 14 篇论文以及 54 个漏洞检测数据集进行了研究,以确认这些定义的问题。此外,我们还讨论了使用现有数据集和创建新数据集的良好做法。