LLM2D

摘要

arXiv:2504.19212v1 Announce Type: cross 摘要：深度假信息技术的迅速发展，特别是在指令引导的图像编辑中的发展，通过实现细微且基于情境的操纵威胁到了数字图像的完整性。这些编辑是从真实图像和文本提示中有条件生成的，往往难以被人类和现有的检测系统察觉，这揭示了当前防御手段的显著局限性。我们提出了一种新颖的多模态胶囊网络CapsFake，旨在通过集成来自于视觉、文本和频域模态的低级别胶囊来检测此类深度假信息图像编辑。通过竞争机制预测的高级别胶囊动态聚合局部特征，以高精度识别被操纵的区域。在包括MagicBrush、Unsplash Edits、Open Images Edits和Multi-turn Edits等多种数据集上进行的评估表明，CapsFake在检测准确性方面比最先进的方法高出20%以上。消融研究表明，该模型具有高度的鲁棒性，在自然扰动下实现超过94%的检测率，并在对抗攻击中达到96%的检测率，表现出色地推广到了未见过的编辑场景中。这种方法为对抗复杂的图像篡改提供了强大的框架。