摘要
arXiv:2503.17332v3 Announce Type: replace-cross
摘要:大型语言模型(LLM)代理日益具备自主开展网络攻击的能力,对现有应用程序构成了重大威胁。这一日益增长的风险突显了建立一个实际基准评估LLM代理利用网络应用漏洞能力的迫切需求。然而,现有的基准存在不足,因为它们仅限于抽象的“捕获旗帜”竞赛或覆盖面不全。为了应对这一挑战,我们引入了CVE-Bench,这是一个基于关键严重性的Common Vulnerabilities and Exposures(CVE)的实际情况下的网络安全基准。在CVE-Bench中,我们设计了一个沙箱框架,使LLM代理能够在模拟实际情况的情境中利用漏洞的网络应用,同时提供有效的评估其攻击效果的方法。我们的评估表明,最先进的代理框架可以解决多达13%的漏洞。