LLM2D
CVE-Bench:评估AI代理利用real-world web应用漏洞能力的基准测试
CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities
作者: Yuxuan Zhu, Antony Kellermann, Dylan Bowman, Philip Li, Akul Gupta, Adarsh Danda, Richard Fang, Conner Jensen, Eric Ihli, Jason Benn, Jet Geronimo, Avi Dhir, Sudhit Rao, Kaicheng Yu, Twm Stone, Daniel Kang
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2503.17332v2

摘要

arXiv:2503.17332v2 通知类型: replace-cross 摘要: 大型语言模型(LLM)代理越来越能够自主进行网络攻击,对现有应用程序造成了重大威胁。这一日益增长的风险突显了建立一个实际基准的紧迫需求,用于评估LLM代理利用web应用程序漏洞的能力。然而,现有的基准存在不足,它们仅限于抽象的Capture the Flag竞赛或缺乏全面覆盖。建立一个针对实际漏洞的基准涉及需要专业技能来重现漏洞利用,以及系统的方法来评估不可预测的威胁。为了解决这一挑战,我们引入了CVE-Bench,这是一个基于高严重性的通用漏洞和曝光(Common Vulnerabilities and Exposures)的现实世界网络安全基准。在CVE-Bench中,我们设计了一个沙盒框架,使LLM代理能够在模拟现实世界条件的场景中利用易受攻击的web应用程序,同时提供对其漏洞利用的有效评估。我们的评估结果显示,最先进的代理框架可以解决多达13%的漏洞。