LLM2D
深度状态空间模型的对抗鲁棒性研究
Exploring Adversarial Robustness of Deep State Space Models
作者: Biqing Qi, Yang Luo, Junqi Gao, Pengfei Li, Kai Tian, Zhiyuan Ma, Bowen Zhou
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2406.05532v2

摘要

深度状态空间模型 (SSMs) 已在许多任务场景中证明了其有效性,但在实际部署中,由于对抗性扰动 (APs) 的存在,面临着巨大的安全挑战。对抗性训练 (AT) 是增强对抗鲁棒性 (AR) 的一种主流方法,并且已经在各种传统的深度神经网络 (DNN) 架构上得到了验证。然而,其在提高 SSMs 的 AR 方面的有效性仍不清楚。虽然 SSMs 的许多组件改进,例如集成注意力机制和扩展到数据相关的 SSM 参数化,在标准训练 (ST) 设置中带来了显著的收益,但它们在 AT 中的潜在益处仍未得到探索。为了对此进行研究,我们评估了具有 AT 的 SSMs 的现有结构变体,以评估它们的 AR 性能。我们观察到,纯 SSM 结构难以从 AT 中获益,而结合注意力机制则使得 SSMs 在 AT 中的鲁棒性和泛化能力之间取得了明显更好的平衡,优于其他组件。然而,注意力的集成也导致了鲁棒过拟合 (RO) 问题。为了理解这些现象,我们对 AP 下 SSMs 的输出误差进行了经验性和理论性分析。我们发现,固定参数化的 SSMs 的输出误差界限与其参数严格相关,限制了它们的 AT 收益,而输入相关的 SSMs 可能面临误差爆炸的问题。此外,我们表明,注意力组件有效地缩放了 SSMs 在训练过程中的输出误差,使其能够从 AT 中获益更多,但代价是由于其高模型复杂度而引入了 RO。受此启发,我们提出了一种简单有效的自适应缩放 (AdS) 机制,该机制使 AT 性能接近集成注意力的 SSMs,而不会引入 RO 问题。我们的代码可在 https://github.com/Biqing-Qi/Exploring-Adversarial-Robustness-of-Deep-State-Space-Models.git 获取。