LLM2D

摘要

本文探讨了图像复制检测（ICD）的上下文学习，即提示一个 ICD 模型识别具有新篡改模式的复制图像，而无需额外的训练。提示（或上下文）来自一小部分反映新模式的图像-复制对，并在推理时使用。这种上下文 ICD 具有良好的现实价值，因为它不需要微调，从而有利于快速应对未见模式的出现。为了适应“已见→未见”的泛化场景，我们构建了第一个大型模式数据集 AnyPattern，该数据集在所有现有数据集中的篡改模式数量最多（训练时 90 种，测试时 10 种）。我们使用流行的 ICD 方法对 AnyPattern 进行基准测试，并发现现有方法几乎无法泛化到新模式。我们进一步提出了一种简单的上下文 ICD 方法，名为 ImageStacker。ImageStacker 学习选择最具代表性的图像-复制对，并将它们作为模式提示以堆叠的方式（而不是流行的串联方式）使用。实验结果表明：（1）使用我们的大型数据集进行训练，极大地促进了模式泛化（+26.66% $\mu AP$)；（2）提出的 ImageStacker 促进了有效的上下文 ICD（又增加了 +16.75% $\mu AP$)；（3）AnyPattern 使上下文 ICD 成为可能，即如果没有这样的大型数据集，即使使用我们的 ImageStacker，上下文学习也不会出现。除了 ICD 任务外，我们还展示了 AnyPattern 如何使艺术家受益，即在 AnyPattern 上训练的模式检索方法可以推广到识别文本到图像模型的风格模仿。该项目在 https://anypattern.github.io 公开提供。