摘要
arXiv:2408.08926v4 Announce Type: replace-cross
摘要:能够自主识别漏洞并执行利用行动的网络安全部落语言模型(LM)代理具有实际影响的潜力。人工智能和网络安全社区中的政策制定者、模型提供者和研究人员对量化这些代理的能力感兴趣,以帮助减轻网络风险并调查渗透测试的机会。为此,我们引入了Cybench,一个用于指定网络安全任务并评估代理在这些任务上的框架。我们包含了来自4个不同CTF比赛的40项专业级别的“攻防”(CTF)任务,这些任务具有近期性、意义性和广泛的难度范围。每个任务都包含其自己的描述、起始文件,并初始化在代理可以执行命令并观察输出的环境中。由于许多任务超出了现有LM代理的能力范围,我们为每个任务引入了子任务,将任务分解为中间步骤以进行更详细的评估。为了评估代理能力,我们构建了一个网络安全代理,并对8个模型进行了评估:GPT-4o、OpenAI o1-preview、Claude 3 Opus、Claude 3.5 Sonnet、Mixtral 8x22b Instruct、Gemini 1.5 Pro、Llama 3 70B Chat 和 Llama 3.1 405B Instruct。对于表现最好的模型(GPT-4o 和 Claude 3.5 Sonnet),我们进一步在4个代理支撑结构(结构化的bash、仅动作、伪终端和网络搜索)中进行了性能评估。在没有子任务指导的情况下,利用Claude 3.5 Sonnet、GPT-4o、OpenAI o1-preview和Claude 3 Opus的代理成功解决了最长达11分钟才能解决的人类团队的完整任务。相比之下,最难的任务需要人类团队花费24小时54分钟才能解决。所有代码和数据都可以在https://cybench.github.io公开获得。