摘要
arXiv:2505.09926v1 宣布类型: cross
摘要: 全局视觉异常检测旨在无需额外微调的情况下,从新的或未见过的视觉领域中识别异常,这对于开放场景至关重要。近期研究表明,像CLIP这样的预训练视觉-语言模型仅使用少量或几幅正常图像就能展现出强大的泛化能力。然而,现有方法在设计提示模板、处理复杂标记交互或要求额外微调方面存在困难,导致灵活性有限。本文基于两个关键洞察介绍了简单且有效的方法——AdaptCLIP。首先,视觉和文本表示应该交替学习,而不是联合学习。其次,在查询和正常图像提示之间的比较学习应该同时包含上下文和对齐的残差特征,而不仅仅是依赖残差特征。AdaptCLIP将CLIP模型视为基础服务,在输入或输出端仅添加三个简单的适配器:视觉适配器、文本适配器和提示-查询适配器。AdaptCLIP在训练有素的基础上,对目标领域具有无需训练的方式实现跨领域的零样本/少样本泛化。AdaptCLIP在12个来自工业和医学领域的异常检测基准上取得了最好的性能,大幅优于现有的竞争方法。我们将将在https://github.com/gaobb/AdaptCLIP发布AdaptCLIP的代码和模型。