LLM2D

摘要

生成式人工智能的快速发展是一把双刃剑，它不仅促进了内容创作，也使图像操纵变得更容易，更难以检测。虽然现有的图像伪造检测和定位 (IFDL) 方法通常有效，但它们往往面临着两个挑战：**1)** 检测原理未知的黑盒性质，**2)** 跨不同篡改方法（例如，Photoshop、DeepFake、AIGC-编辑）的泛化能力有限。为了解决这些问题，我们提出了可解释的 IFDL 任务，并设计了 FakeShield，一个能够评估图像真实性、生成篡改区域掩码，并根据像素级和图像级篡改线索提供判断依据的多模态框架。此外，我们利用 GPT-4o 增强现有的 IFDL 数据集，创建了用于训练 FakeShield 篡改分析能力的多模态篡改描述数据集 (MMTD-Set)。同时，我们整合了领域标签引导的可解释伪造检测模块 (DTE-FDM) 和多模态伪造定位模块 (MFLM)，以解决各种类型的篡改检测解释，并实现由详细文本描述引导的伪造定位。大量的实验表明，FakeShield 有效地检测和定位了各种篡改技术，与之前的 IFDL 方法相比，它提供了一种可解释且更优的解决方案。