摘要
基于大型语言模型 (LLM) 的生成式 AI 代理,正在成为自动化网络安全任务的一种很有前景的方法。在众多任务中,渗透测试由于其任务的复杂性和模拟网络攻击的多样化策略而极具挑战性。尽管人们对利用生成式代理自动化渗透测试越来越感兴趣,并且已经开展了一些初步研究,但仍然存在一个显著的差距,即缺乏一个全面且标准化的框架来评估和开发这些代理。本文介绍了 AutoPenBench,这是一个用于评估生成式代理在自动化渗透测试中的开放基准。我们提出了一个全面的框架,其中包括 33 个任务,每个任务代表一个代理需要攻击的脆弱系统。任务的难度级别不断提升,包括体外和现实世界场景。我们使用通用和特定里程碑来评估代理性能,这使我们能够以标准化方式比较结果,并了解被测代理的局限性。我们通过测试两种代理架构展示了 AutoPenBench 的优势:一个完全自主的代理和一个支持人机交互的半自主代理。我们比较了它们的性能和局限性。例如,完全自主的代理在整个基准测试中仅取得了 21% 的成功率 (SR),无法完成 27% 的简单任务,并且只完成了一个现实世界任务。相比之下,辅助代理表现出显著的改进,成功率达到 64%。AutoPenBench 还使我们能够观察到不同的 LLM,如 GPT-4o 或 OpenAI o1,如何影响代理完成任务的能力。我们相信,我们的基准弥合了差距,提供了一个标准且灵活的框架,可以在共同基础上比较渗透测试代理。我们希望通过在 https://github.com/lucagioacchini/auto-pen-bench 上提供该基准,与研究界一起扩展它。