LLM2D

摘要

arXiv:2502.10931v1 宣告类型: 新摘要: 大型语言模型(LLLMs)在网络安全领域的应用非常广泛，包括将其用作自主安全分析的智能代理系统。捕获旗子(Capture the Flag, CTF)挑战为评估LLM代理在各种网络安全技能集上的自动化任务规划能力提供了基准。早期尝试将LLM应用于解决CTF挑战主要依赖于单个代理系统，其中反馈仅限于单一的推理-行动循环。这种方法对于处理复杂的CTF任务证明是不够的。受到真实世界CTF竞赛中专家团队合作的启发，我们引入了D-CIPHER多代理LLM框架，用于协同解决CTF挑战。D-CIPHER集成了具有不同角色的代理，使得动态反馈循环得以增强，并提高对CTF挑战的推理能力。它引入了计划者-执行者代理系统，包括一个计划者代理负责整体问题解决，以及多个异构执行者代理负责个体任务，从而在LLMs之间高效地分配责任。此外，D-CIPHER还包含了自动生成提示的代理，通过探索挑战环境并生成高度相关的初始提示，来提高问题解决能力。我们使用多种LLM模型在CTF基准上评估了D-CIPHER，并进行了全面的研究以突出显示我们增强措施的影响。研究结果表明，多代理D-CIPHER系统在解决挑战方面获得了显著改善，并在三个基准上达到了最先进的性能：在NYU CTF Bench上为22.0%，在Cybench上为22.5%，在HackTheBox上为44.0%。D-CIPHER可在 https://github.com/NYU-LLM-CTF/nyuctf_agents 作为nyuctf_multiagent包获取。