摘要
能够自主识别漏洞并执行攻击的网络安全语言模型 (LM) 代理有可能对现实世界造成影响。人工智能和网络安全领域的政策制定者、模型提供商和其他研究人员有兴趣量化此类代理的能力,以帮助缓解网络风险并调查渗透测试的机会。为此,我们介绍了 Cybench,这是一个用于指定网络安全任务和评估代理在这些任务上的框架。我们包括了来自 4 个不同 CTF 比赛的 40 个专业级夺旗 (CTF) 任务,这些任务经过精心选择,具有最新性、意义和广泛的难度。每个任务都包含其自身描述、入门文件,并在代理可以执行 bash 命令并观察输出的环境中初始化。由于许多任务超出了现有 LM 代理的能力,因此我们为每个任务引入了子任务,将任务分解为中间步骤,以便更详细地评估。为了评估代理能力,我们构建了一个网络安全代理,并评估了 8 个模型:GPT-4o、OpenAI o1-preview、Claude 3 Opus、Claude 3.5 Sonnet、Mixtral 8x22b Instruct、Gemini 1.5 Pro、Llama 3 70B Chat 和 Llama 3.1 405B Instruct。在没有子任务指导的情况下,使用 Claude 3.5 Sonnet、GPT-4o、OpenAI o1-preview 和 Claude 3 Opus 的代理成功解决了需要人类团队最多 11 分钟才能解决的完整任务。相比之下,最困难的任务需要人类团队 24 小时 54 分钟才能解决。所有代码和数据都可以在 https://cybench.github.io 公开获取。