LLM2D
FakeShield:基于多模态大型语言模型的可解释图像伪造检测与定位
FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models
作者: Zhipei Xu, Xuanyu Zhang, Runyi Li, Zecheng Tang, Qing Huang, Jian Zhang
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.02761v1

摘要

生成式人工智能的快速发展是一把双刃剑,它不仅促进了内容创作,也使图像操纵变得更容易,更难以检测。虽然现有的图像伪造检测和定位 (IFDL) 方法通常有效,但它们往往面临着两个挑战:**1)** 检测原理未知的黑盒性质,**2)** 跨不同篡改方法(例如,Photoshop、DeepFake、AIGC-编辑)的泛化能力有限。为了解决这些问题,我们提出了可解释的 IFDL 任务,并设计了 FakeShield,一个能够评估图像真实性、生成篡改区域掩码,并根据像素级和图像级篡改线索提供判断依据的多模态框架。此外,我们利用 GPT-4o 增强现有的 IFDL 数据集,创建了用于训练 FakeShield 篡改分析能力的多模态篡改描述数据集 (MMTD-Set)。同时,我们整合了领域标签引导的可解释伪造检测模块 (DTE-FDM) 和多模态伪造定位模块 (MFLM),以解决各种类型的篡改检测解释,并实现由详细文本描述引导的伪造定位。大量的实验表明,FakeShield 有效地检测和定位了各种篡改技术,与之前的 IFDL 方法相比,它提供了一种可解释且更优的解决方案。