LLM2D
ADBM:对抗扩散桥模型用于可靠的对抗净化
ADBM: Adversarial diffusion bridge model for reliable adversarial purification
作者: Xiao Li, Wenxuan Sun, Huanran Chen, Qiongxiu Li, Yining Liu, Yingzhe He, Jie Shi, Xiaolin Hu
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2408.00315v3

摘要

arXiv:2408.00315v3 Announce Type: replace-cross 摘要:最近,基于扩散的净化(DiffPure)已经识别为对抗样本的有效防御方法。然而,我们发现直接使用原始预训练的扩散模型进行对抗样本净化的DiffPure方法存在不足。这主要是由于净化噪声性能和数据恢复质量之间的固有权衡。此外,现有对DiffPure的评估可靠性的怀疑源于它们依赖于薄弱的自适应攻击。在本文中,我们提出了一种新的对抗扩散桥梁模型,称为ADBM(Adversarial Diffusion Bridge Model)。ADBM 直接从扩散的对抗数据构建回其原始干净样本的反向桥梁,增强原始扩散模型的净化能力。通过在各种场景下的理论分析和实验验证,ADBM 已经证明是一种更优且稳健的防御机制,为实际应用提供了巨大潜力。