摘要
arXiv:2503.17332v2 通知类型: replace-cross
摘要: 大型语言模型(LLM)代理越来越能够自主进行网络攻击,对现有应用程序造成了重大威胁。这一日益增长的风险突显了建立一个实际基准的紧迫需求,用于评估LLM代理利用web应用程序漏洞的能力。然而,现有的基准存在不足,它们仅限于抽象的Capture the Flag竞赛或缺乏全面覆盖。建立一个针对实际漏洞的基准涉及需要专业技能来重现漏洞利用,以及系统的方法来评估不可预测的威胁。为了解决这一挑战,我们引入了CVE-Bench,这是一个基于高严重性的通用漏洞和曝光(Common Vulnerabilities and Exposures)的现实世界网络安全基准。在CVE-Bench中,我们设计了一个沙盒框架,使LLM代理能够在模拟现实世界条件的场景中利用易受攻击的web应用程序,同时提供对其漏洞利用的有效评估。我们的评估结果显示,最先进的代理框架可以解决多达13%的漏洞。