摘要
arXiv:2504.19212v1 Announce Type: cross
摘要:深度假信息技术的迅速发展,特别是在指令引导的图像编辑中的发展,通过实现细微且基于情境的操纵威胁到了数字图像的完整性。这些编辑是从真实图像和文本提示中有条件生成的,往往难以被人类和现有的检测系统察觉,这揭示了当前防御手段的显著局限性。我们提出了一种新颖的多模态胶囊网络CapsFake,旨在通过集成来自于视觉、文本和频域模态的低级别胶囊来检测此类深度假信息图像编辑。通过竞争机制预测的高级别胶囊动态聚合局部特征,以高精度识别被操纵的区域。在包括MagicBrush、Unsplash Edits、Open Images Edits和Multi-turn Edits等多种数据集上进行的评估表明,CapsFake在检测准确性方面比最先进的方法高出20%以上。消融研究表明,该模型具有高度的鲁棒性,在自然扰动下实现超过94%的检测率,并在对抗攻击中达到96%的检测率,表现出色地推广到了未见过的编辑场景中。这种方法为对抗复杂的图像篡改提供了强大的框架。