LLM2D
Cybench:一个用于评估语言模型网络安全能力和风险的框架
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models
作者: Andy K. Zhang, Neil Perry, Riya Dulepet, Joey Ji, Justin W. Lin, Eliot Jones, Celeste Menders, Gashon Hussein, Samantha Liu, Donovan Jasper, Pura Peetathawatchai, Ari Glenn, Vikram Sivashankar, Daniel Zamoshchin, Leo Glikbarg, Derek Askaryar, Mike Yang, Teddy Zhang, Rishi Alluri, Nathan Tran, Rinnara Sangpisit, Polycarpos Yiorkadjis, Kenny Osele, Gautham Raghupathi, Dan Boneh, Daniel E. Ho, Percy Liang
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2408.08926v2

摘要

能够自主识别漏洞并执行攻击的网络安全语言模型 (LM) 代理有可能对现实世界造成影响。人工智能和网络安全领域的政策制定者、模型提供商和其他研究人员有兴趣量化此类代理的能力,以帮助缓解网络风险并调查渗透测试的机会。为此,我们介绍了 Cybench,这是一个用于指定网络安全任务和评估代理在这些任务上的框架。我们包括了来自 4 个不同 CTF 比赛的 40 个专业级夺旗 (CTF) 任务,这些任务经过精心选择,具有最新性、意义和广泛的难度。每个任务都包含其自身描述、入门文件,并在代理可以执行 bash 命令并观察输出的环境中初始化。由于许多任务超出了现有 LM 代理的能力,因此我们为每个任务引入了子任务,将任务分解为中间步骤,以便更详细地评估。为了评估代理能力,我们构建了一个网络安全代理,并评估了 8 个模型:GPT-4o、OpenAI o1-preview、Claude 3 Opus、Claude 3.5 Sonnet、Mixtral 8x22b Instruct、Gemini 1.5 Pro、Llama 3 70B Chat 和 Llama 3.1 405B Instruct。在没有子任务指导的情况下,使用 Claude 3.5 Sonnet、GPT-4o、OpenAI o1-preview 和 Claude 3 Opus 的代理成功解决了需要人类团队最多 11 分钟才能解决的完整任务。相比之下,最困难的任务需要人类团队 24 小时 54 分钟才能解决。所有代码和数据都可以在 https://cybench.github.io 公开获取。