LLM2D

摘要

能够自主识别漏洞并执行攻击的网络安全语言模型 (LM) 代理有可能对现实世界造成影响。人工智能和网络安全领域的政策制定者、模型提供商和其他研究人员有兴趣量化此类代理的能力，以帮助缓解网络风险并调查渗透测试的机会。为此，我们介绍了 Cybench，这是一个用于指定网络安全任务和评估代理在这些任务上的框架。我们包括了来自 4 个不同 CTF 比赛的 40 个专业级夺旗 (CTF) 任务，这些任务经过精心选择，具有最新性、意义和广泛的难度。每个任务都包含其自身描述、入门文件，并在代理可以执行 bash 命令并观察输出的环境中初始化。由于许多任务超出了现有 LM 代理的能力，因此我们为每个任务引入了子任务，将任务分解为中间步骤，以便更详细地评估。为了评估代理能力，我们构建了一个网络安全代理，并评估了 8 个模型：GPT-4o、OpenAI o1-preview、Claude 3 Opus、Claude 3.5 Sonnet、Mixtral 8x22b Instruct、Gemini 1.5 Pro、Llama 3 70B Chat 和 Llama 3.1 405B Instruct。在没有子任务指导的情况下，使用 Claude 3.5 Sonnet、GPT-4o、OpenAI o1-preview 和 Claude 3 Opus 的代理成功解决了需要人类团队最多 11 分钟才能解决的完整任务。相比之下，最困难的任务需要人类团队 24 小时 54 分钟才能解决。所有代码和数据都可以在 https://cybench.github.io 公开获取。