LLM2D

摘要

arXiv:2503.17332v2 通知类型: replace-cross 摘要: 大型语言模型（LLM）代理越来越能够自主进行网络攻击，对现有应用程序造成了重大威胁。这一日益增长的风险突显了建立一个实际基准的紧迫需求，用于评估LLM代理利用web应用程序漏洞的能力。然而，现有的基准存在不足，它们仅限于抽象的Capture the Flag竞赛或缺乏全面覆盖。建立一个针对实际漏洞的基准涉及需要专业技能来重现漏洞利用，以及系统的方法来评估不可预测的威胁。为了解决这一挑战，我们引入了CVE-Bench，这是一个基于高严重性的通用漏洞和曝光（Common Vulnerabilities and Exposures）的现实世界网络安全基准。在CVE-Bench中，我们设计了一个沙盒框架，使LLM代理能够在模拟现实世界条件的场景中利用易受攻击的web应用程序，同时提供对其漏洞利用的有效评估。我们的评估结果显示，最先进的代理框架可以解决多达13%的漏洞。