LLM2D

摘要

arXiv:2503.17332v3 Announce Type: replace-cross 摘要：大型语言模型（LLM）代理日益具备自主开展网络攻击的能力，对现有应用程序构成了重大威胁。这一日益增长的风险突显了建立一个实际基准评估LLM代理利用网络应用漏洞能力的迫切需求。然而，现有的基准存在不足，因为它们仅限于抽象的“捕获旗帜”竞赛或覆盖面不全。为了应对这一挑战，我们引入了CVE-Bench，这是一个基于关键严重性的Common Vulnerabilities and Exposures（CVE）的实际情况下的网络安全基准。在CVE-Bench中，我们设计了一个沙箱框架，使LLM代理能够在模拟实际情况的情境中利用漏洞的网络应用，同时提供有效的评估其攻击效果的方法。我们的评估表明，最先进的代理框架可以解决多达13%的漏洞。