摘要
arXiv:2504.08782v1 交叉公告类型:攻击策略
摘要:我们介绍了一种新的攻击范式,通过微调直接将隐藏的对抗能力嵌入到扩散模型中,而不改变其可观察的行为或推理过程中的修改。与之前针对特定图像或调整生成过程以产生对抗输出的方法不同,我们的方法将对抗功能集成到模型本身中。由此产生的篡改模型生成高质量的图像,这些图像与原始图像无法区分,但这些图像在下游分类器中以高频率导致错误分类。错误分类可以针对特定输出类。用户可以不知情地使用这种被篡改的模型,因为它与标准扩散模型的功能完全相同。我们展示了我们方法的有效性和隐蔽性,揭示了一种隐蔽攻击向量,引发了新的安全问题。本研究揭示了使用外部提供的模型带来的一种风险,并强调了在生成模型中对抗隐藏威胁时需要更强健的模型验证和防御机制的迫切需要。代码可在 https://github.com/LucasBeerens/CRAFTed-Diffusion 提供。