LLM2D

摘要

深度状态空间模型 (SSMs) 已在许多任务场景中证明了其有效性，但在实际部署中，由于对抗性扰动 (APs) 的存在，面临着巨大的安全挑战。对抗性训练 (AT) 是增强对抗鲁棒性 (AR) 的一种主流方法，并且已经在各种传统的深度神经网络 (DNN) 架构上得到了验证。然而，其在提高 SSMs 的 AR 方面的有效性仍不清楚。虽然 SSMs 的许多组件改进，例如集成注意力机制和扩展到数据相关的 SSM 参数化，在标准训练 (ST) 设置中带来了显著的收益，但它们在 AT 中的潜在益处仍未得到探索。为了对此进行研究，我们评估了具有 AT 的 SSMs 的现有结构变体，以评估它们的 AR 性能。我们观察到，纯 SSM 结构难以从 AT 中获益，而结合注意力机制则使得 SSMs 在 AT 中的鲁棒性和泛化能力之间取得了明显更好的平衡，优于其他组件。然而，注意力的集成也导致了鲁棒过拟合 (RO) 问题。为了理解这些现象，我们对 AP 下 SSMs 的输出误差进行了经验性和理论性分析。我们发现，固定参数化的 SSMs 的输出误差界限与其参数严格相关，限制了它们的 AT 收益，而输入相关的 SSMs 可能面临误差爆炸的问题。此外，我们表明，注意力组件有效地缩放了 SSMs 在训练过程中的输出误差，使其能够从 AT 中获益更多，但代价是由于其高模型复杂度而引入了 RO。受此启发，我们提出了一种简单有效的自适应缩放 (AdS) 机制，该机制使 AT 性能接近集成注意力的 SSMs，而不会引入 RO 问题。我们的代码可在 https://github.com/Biqing-Qi/Exploring-Adversarial-Robustness-of-Deep-State-Space-Models.git 获取。