摘要
arXiv:2502.10931v1 宣告类型: 新
摘要: 大型语言模型(LLLMs)在网络安全领域的应用非常广泛,包括将其用作自主安全分析的智能代理系统。捕获旗子(Capture the Flag, CTF)挑战为评估LLM代理在各种网络安全技能集上的自动化任务规划能力提供了基准。早期尝试将LLM应用于解决CTF挑战主要依赖于单个代理系统,其中反馈仅限于单一的推理-行动循环。这种方法对于处理复杂的CTF任务证明是不够的。受到真实世界CTF竞赛中专家团队合作的启发,我们引入了D-CIPHER多代理LLM框架,用于协同解决CTF挑战。D-CIPHER集成了具有不同角色的代理,使得动态反馈循环得以增强,并提高对CTF挑战的推理能力。它引入了计划者-执行者代理系统,包括一个计划者代理负责整体问题解决,以及多个异构执行者代理负责个体任务,从而在LLMs之间高效地分配责任。此外,D-CIPHER还包含了自动生成提示的代理,通过探索挑战环境并生成高度相关的初始提示,来提高问题解决能力。我们使用多种LLM模型在CTF基准上评估了D-CIPHER,并进行了全面的研究以突出显示我们增强措施的影响。研究结果表明,多代理D-CIPHER系统在解决挑战方面获得了显著改善,并在三个基准上达到了最先进的性能:在NYU CTF Bench上为22.0%,在Cybench上为22.5%,在HackTheBox上为44.0%。D-CIPHER可在 https://github.com/NYU-LLM-CTF/nyuctf_agents 作为nyuctf_multiagent包获取。