LLM2D

摘要

arXiv:2503.19653v1 宣告类型: cross 摘要：本文识别出OpenSDI这一挑战，即在开放世界环境中识别由扩散生成的图像。针对这一挑战，我们定义了一个新的基准，即OpenSDI数据集（OpenSDID），因其利用了大型视觉-语言模型模拟开放世界扩散基础操作而与其他现有数据集有所不同。OpenSDID的另一个突出特点是包含了由扩散模型全局和局部操纵的图像的检测和定位任务。为应对OpenSDI挑战，我们提出了一种融合预训练模型（SPM）方案，旨在构建一系列基础模型的组合。此方法利用了多预训练基础模型的合作机制，以增强OpenSDI语境下的泛化能力，通过引发和关注策略将多个预训练模型进行协同作用。基于此方案，我们引入了MaskCLIP，这是一种SPM为基础的模型，将对比语言-图像预训练（CLIP）与遮蔽自编码器（MAE）对齐。在OpenSDID上的广泛评估表明，MaskCLIP在开放SDI挑战中的性能显著优于当前最先进的方法，在IoU（F1为14.11%）和准确率（F1为2.38%）方面分别取得了14.23%和2.05%的相对改进，针对定位和检测任务，均优于第二佳模型。我们的数据集和代码可在https://github.com/iamwangyabin/OpenSDI获得。