摘要
arXiv:2406.01637v2 通告类型: replace-cross
摘要: 大型语言模型(LLM)代理已经变得越来越复杂,特别是在网络安全领域。研究人员已经证明,当给定漏洞的描述时,LLM代理可以利用实际世界中的漏洞,并解决玩具捕获的旗帜问题。然而,这些代理在事先对代理未知的真实世界漏洞(零日漏洞)上表现仍然不佳。
在这项工作中,我们展示了由LLM代理组成的团队可以利用实际存在的零日漏洞。单个代理在单独使用时难以探索多种不同的漏洞和进行长期规划。为了解决这个问题,我们引入了HPTSA——一个包括能够启动子代理的规划代理的系统。规划代理探索系统并决定调用哪些子代理,在尝试不同漏洞时解决了长期规划问题。我们构建了一个包含14个真实世界漏洞的基准,并展示了我们的代理团队相较于之前的代理框架提高了4.3倍。