LLM2D

摘要

arXiv:2410.02761v4 宣告类型: replace-cross 摘要：生成式AI的快速发展是一把双刃剑，它不仅促进了内容创作，还让图像操纵变得更加容易且难以检测。尽管当前的图像伪造检测与定位（IFDL）方法通常都是有效的，但它们往往会面临两个挑战：\textbf{1)} 黑盒性质且检测原理未知，\textbf{2)} 在多样化的篡改方法（如Photoshop、DeepFake、AIGC-Editing）之间缺乏泛化能力。为了应对这些问题，我们提出了可解释的IFDL任务，并设计了FakeShield，这是一种多模态框架，能够评估图像的真实性、生成篡改区域mask，并基于像素级和图像级篡改线索提供鉴定基础。此外，我们利用GPT-4o增强现有的IFDL数据集，创建了多模态篡改描述数据集（MMTD-Set）以训练FakeShield的篡改分析能力。同时，我们引入了带有领域标签指导的可解释伪造检测模块（DTE-FDM）和多模态伪造定位模块（MFLM），以应对各种类型的篡改检测解释，并在详细的文本描述指导下实现伪造定位。广泛的实验表明，FakeShield有效地检测和定位了各种篡改技术，提供了比之前IFDL方法更具解释性和优越性的解决方案。代码可在https://github.com/zhipeixu/FakeShield 获取。