LLM2D

摘要

arXiv:2406.01637v2 通告类型: replace-cross 摘要: 大型语言模型（LLM）代理已经变得越来越复杂，特别是在网络安全领域。研究人员已经证明，当给定漏洞的描述时，LLM代理可以利用实际世界中的漏洞，并解决玩具捕获的旗帜问题。然而，这些代理在事先对代理未知的真实世界漏洞（零日漏洞）上表现仍然不佳。在这项工作中，我们展示了由LLM代理组成的团队可以利用实际存在的零日漏洞。单个代理在单独使用时难以探索多种不同的漏洞和进行长期规划。为了解决这个问题，我们引入了HPTSA——一个包括能够启动子代理的规划代理的系统。规划代理探索系统并决定调用哪些子代理，在尝试不同漏洞时解决了长期规划问题。我们构建了一个包含14个真实世界漏洞的基准，并展示了我们的代理团队相较于之前的代理框架提高了4.3倍。