LLM2D

摘要

arXiv:2503.19653v3 宣告类型: replace-cross 摘要: 本文识别了OpenSDI，这是一个在开放世界环境中识别由扩散生成的图像的挑战。为应对这一挑战，我们定义了一个新的基准，即OpenSDI数据集（OpenSDID），其与现有数据集相比脱颖而出，因为它采用了多种大型视觉-语言模型来模拟开放世界的扩散式操作。OpenSDID的另一个突出特点是包含了由扩散模型全局和局部操纵的图像的检测和定位任务。为了应对OpenSDI的挑战，我们提出了一种协同预训练模型（SPM）方案，以构建混合基础模型。此方法利用了多种预训练基础模型之间的协作机制，以增强在OpenSDI上下文中的泛化能力，超越传统的训练方法，通过提示和关注策略来综合多个预训练模型。基于此方案，我们介绍了MaskCLIP，这是一种基于SPM的模型，将对比语言-图像预训练（CLIP）与掩码自编码器（MAE）对齐。对OpenSDID的广泛评估表明，MaskCLIP显著优于当前针对OpenSDI挑战的最先进的方法，在检测和定位任务中分别在IoU（F1分别为14.11%）和精度（F1分别为2.38%）上取得了显著的相对改进14.23%（2.05%）。我们的数据集和代码可在https://github.com/iamwangyabin/OpenSDI 下获得。