LLM2D
Cybench: 语言模型网络安全能力和风险评估框架
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models
作者: Andy K. Zhang, Neil Perry, Riya Dulepet, Joey Ji, Celeste Menders, Justin W. Lin, Eliot Jones, Gashon Hussein, Samantha Liu, Donovan Jasper, Pura Peetathawatchai, Ari Glenn, Vikram Sivashankar, Daniel Zamoshchin, Leo Glikbarg, Derek Askaryar, Mike Yang, Teddy Zhang, Rishi Alluri, Nathan Tran, Rinnara Sangpisit, Polycarpos Yiorkadjis, Kenny Osele, Gautham Raghupathi, Dan Boneh, Daniel E. Ho, Percy Liang
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2408.08926v4

摘要

arXiv:2408.08926v4 Announce Type: replace-cross 摘要:能够自主识别漏洞并执行利用行动的网络安全部落语言模型(LM)代理具有实际影响的潜力。人工智能和网络安全社区中的政策制定者、模型提供者和研究人员对量化这些代理的能力感兴趣,以帮助减轻网络风险并调查渗透测试的机会。为此,我们引入了Cybench,一个用于指定网络安全任务并评估代理在这些任务上的框架。我们包含了来自4个不同CTF比赛的40项专业级别的“攻防”(CTF)任务,这些任务具有近期性、意义性和广泛的难度范围。每个任务都包含其自己的描述、起始文件,并初始化在代理可以执行命令并观察输出的环境中。由于许多任务超出了现有LM代理的能力范围,我们为每个任务引入了子任务,将任务分解为中间步骤以进行更详细的评估。为了评估代理能力,我们构建了一个网络安全代理,并对8个模型进行了评估:GPT-4o、OpenAI o1-preview、Claude 3 Opus、Claude 3.5 Sonnet、Mixtral 8x22b Instruct、Gemini 1.5 Pro、Llama 3 70B Chat 和 Llama 3.1 405B Instruct。对于表现最好的模型(GPT-4o 和 Claude 3.5 Sonnet),我们进一步在4个代理支撑结构(结构化的bash、仅动作、伪终端和网络搜索)中进行了性能评估。在没有子任务指导的情况下,利用Claude 3.5 Sonnet、GPT-4o、OpenAI o1-preview和Claude 3 Opus的代理成功解决了最长达11分钟才能解决的人类团队的完整任务。相比之下,最难的任务需要人类团队花费24小时54分钟才能解决。所有代码和数据都可以在https://cybench.github.io公开获得。