LLM2D
CVE-Bench:AI代理利用实际Web应用漏洞能力的基准测试
CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities
作者: Yuxuan Zhu, Antony Kellermann, Dylan Bowman, Philip Li, Akul Gupta, Adarsh Danda, Richard Fang, Conner Jensen, Eric Ihli, Jason Benn, Jet Geronimo, Avi Dhir, Sudhit Rao, Kaicheng Yu, Twm Stone, Daniel Kang
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2503.17332v3

摘要

arXiv:2503.17332v3 Announce Type: replace-cross 摘要:大型语言模型(LLM)代理日益具备自主开展网络攻击的能力,对现有应用程序构成了重大威胁。这一日益增长的风险突显了建立一个实际基准评估LLM代理利用网络应用漏洞能力的迫切需求。然而,现有的基准存在不足,因为它们仅限于抽象的“捕获旗帜”竞赛或覆盖面不全。为了应对这一挑战,我们引入了CVE-Bench,这是一个基于关键严重性的Common Vulnerabilities and Exposures(CVE)的实际情况下的网络安全基准。在CVE-Bench中,我们设计了一个沙箱框架,使LLM代理能够在模拟实际情况的情境中利用漏洞的网络应用,同时提供有效的评估其攻击效果的方法。我们的评估表明,最先进的代理框架可以解决多达13%的漏洞。