LLM2D

摘要

arXiv:2408.08926v4 Announce Type: replace-cross 摘要：能够自主识别漏洞并执行利用行动的网络安全部落语言模型（LM）代理具有实际影响的潜力。人工智能和网络安全社区中的政策制定者、模型提供者和研究人员对量化这些代理的能力感兴趣，以帮助减轻网络风险并调查渗透测试的机会。为此，我们引入了Cybench，一个用于指定网络安全任务并评估代理在这些任务上的框架。我们包含了来自4个不同CTF比赛的40项专业级别的“攻防”（CTF）任务，这些任务具有近期性、意义性和广泛的难度范围。每个任务都包含其自己的描述、起始文件，并初始化在代理可以执行命令并观察输出的环境中。由于许多任务超出了现有LM代理的能力范围，我们为每个任务引入了子任务，将任务分解为中间步骤以进行更详细的评估。为了评估代理能力，我们构建了一个网络安全代理，并对8个模型进行了评估：GPT-4o、OpenAI o1-preview、Claude 3 Opus、Claude 3.5 Sonnet、Mixtral 8x22b Instruct、Gemini 1.5 Pro、Llama 3 70B Chat 和 Llama 3.1 405B Instruct。对于表现最好的模型（GPT-4o 和 Claude 3.5 Sonnet），我们进一步在4个代理支撑结构（结构化的bash、仅动作、伪终端和网络搜索）中进行了性能评估。在没有子任务指导的情况下，利用Claude 3.5 Sonnet、GPT-4o、OpenAI o1-preview和Claude 3 Opus的代理成功解决了最长达11分钟才能解决的人类团队的完整任务。相比之下，最难的任务需要人类团队花费24小时54分钟才能解决。所有代码和数据都可以在https://cybench.github.io公开获得。