摘要
arXiv:2503.19653v2 Announce Type: replace-cross
摘要:本文识别出了OpenSDI这一挑战,其目标是在开放世界环境中识别由扩散生成的图像。为应对这一挑战,我们定义了一个新的基准,即OpenSDI数据集(OpenSDID),由于使用了大量模仿开放世界扩散式操作的视觉-语言模型,其在现有的数据集中脱颖而出。OpenSDID的另一个突出特点是包含由扩散模型全局和局部操纵的图像的检测和定位任务。为解决OpenSDI挑战,我们提出了一种混合基础模型方案Synergizing Pretrained Models(SPM),该方法利用多个预训练基础模型之间的协作机制,在OpenSDI背景下增强泛化能力,通过提示和注意策略协同多个预训练模型。基于该方案,我们引入了MaskCLIP模型,这是一种SPM基模型,它将对比语言-图像预训练(CLIP)与遮蔽自编码器(MAE)对齐。在OpenSDID上的广泛评估表明,MaskCLIP显著优于当前最先进的方法,对于定位和检测任务,相对改进分别达到了14.23%(F1为14.11%)和2.05%(F1为2.38%)。我们的数据集和代码可在https://github.com/iamwangyabin/OpenSDI获取。