LLM2D

摘要

arXiv:2503.11917v2 通报类型：替换-交叉摘要：随着前沿AI模型变得更加具备能力，评估其潜在的发动网络攻击的能力对于确保通用人工智能（AGI）的安全发展至关重要。目前的网络评估努力往往是临时性和随意性的，缺乏对攻击阶段的系统性分析和针对防御的指导。本研究提出了一个新颖的评估框架，通过以下方式解决这些限制：（1）考察端到端的攻击链，（2）识别AI威胁评估中的缺口，并（3）帮助防御者优先考虑受目标攻击影响的缓解措施，并使用AI进行对手模拟以进行红队训练。我们的方法将现有的网络攻击链框架应用于AI系统。我们分析了Google威胁情报团队catalogued的超过12,000个实际的AI在网络攻击中的应用实例。基于这些分析，我们精心挑选了七个代表性的网络攻击链原型，并进行了瓶颈分析以确定潜在的由AI驱动的成本中断点。我们的基准包括了50个新的挑战，涵盖了各种网络攻击阶段。利用这一基准，我们制定了针对特定攻击阶段的网络安全模型评估方法，报告了AI在其特定攻击阶段增强进攻能力的潜力，并提供了优先防御的建议。我们认为这代表了迄今为止发布的最全面的AI网络风险评估框架。