LLM2D

摘要

arXiv:2502.10931v2 宣告类型：替换摘要：大语言模型（LLMs）在网络安全领域被用于自主安全分析或渗透测试。夺旗挑战（Capture the Flag, CTF）比赛作为评估LLM代理在网络安全任务规划能力的基准。早期尝试使用LLMs解决CTF挑战的方法使用了单机体系统，其中反馈仅限于一个推理-行动循环。这种方法对于复杂的CTF任务来说是不足够的。受到真实世界CTF比赛的启发，其中专家团队合作，我们引入了D-CIPHER LLM多代理框架，用于协作CTF解决。D-CIPHER将具有不同角色的代理与动态反馈循环相结合，以增强复杂任务的推理能力。它引入了由总体问题求解规划代理与多个异构执行代理组成的规划者-执行者代理系统，这些执行代理能够为各个任务分配任务，从而实现代理间责任的有效分配。此外，D-CIPHER还集成了一个自动提示生成器代理，通过自动生成与问题高度相关的初始提示来改进问题求解能力。我们通过全面的研究，将D-CIPHER在多个CTF基准和LLM模型上进行评估，以突出我们改进的影响。此外，我们手动将NYU CTF基准中的CTF映射到MITRE ATT&CK技术，以便对D-CIPHER的进攻性安全能力进行全面评估。D-CIPHER在三项基准测试中取得了最先进的性能：在NYU CTF Bench上的得分为22.0%，在Cybench上的得分为22.5%，在HackTheBox上的得分为44.0%，相对于之前的成果，分别提高了2.5%至8.5%。D-CIPHER相比之前的成果解决了65%更多的ATT&CK技术，展示了更强的进攻性能力。