LLM2D
FakeShield:基于多模态大语言模型的可解释图像伪造检测与定位
FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models
作者: Zhipei Xu, Xuanyu Zhang, Runyi Li, Zecheng Tang, Qing Huang, Jian Zhang
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2410.02761v4

摘要

arXiv:2410.02761v4 宣告类型: replace-cross 摘要:生成式AI的快速发展是一把双刃剑,它不仅促进了内容创作,还让图像操纵变得更加容易且难以检测。尽管当前的图像伪造检测与定位(IFDL)方法通常都是有效的,但它们往往会面临两个挑战:\textbf{1)} 黑盒性质且检测原理未知,\textbf{2)} 在多样化的篡改方法(如Photoshop、DeepFake、AIGC-Editing)之间缺乏泛化能力。为了应对这些问题,我们提出了可解释的IFDL任务,并设计了FakeShield,这是一种多模态框架,能够评估图像的真实性、生成篡改区域mask,并基于像素级和图像级篡改线索提供鉴定基础。此外,我们利用GPT-4o增强现有的IFDL数据集,创建了多模态篡改描述数据集(MMTD-Set)以训练FakeShield的篡改分析能力。同时,我们引入了带有领域标签指导的可解释伪造检测模块(DTE-FDM)和多模态伪造定位模块(MFLM),以应对各种类型的篡改检测解释,并在详细的文本描述指导下实现伪造定位。广泛的实验表明,FakeShield有效地检测和定位了各种篡改技术,提供了比之前IFDL方法更具解释性和优越性的解决方案。代码可在https://github.com/zhipeixu/FakeShield 获取。