LLM2D

摘要

arXiv:2505.09265v1 宣告类型：交叉摘要：零样本和少样本视觉异常分割依赖于强大的视觉-语言模型，这些模型使用手工设计的文本提示来检测未见过的异常。然而，视觉表示本质上与语言是独立的。在本文中，我们探索了纯视觉基础模型作为广泛使用的视觉-语言模型的替代品，以实现通用视觉异常分割的潜力。我们提出了一种新的范式，将异常分割统一为变化分割。此范式使我们能够利用源自现有图像数据集的大规模合成图像对，这些图像对包含对象级别和局部区域变化，且与目标异常数据集独立。我们提出了一种名为通用异常分割 (MetaUAS) 的元学习框架，在此合成数据集上进行训练，然后能够很好地泛化到分割真实世界中任何新的或未见过的视觉异常。为了处理提示图像和查询图像之间的几何变化，我们提出了一种软特征对齐模块，该模块连接配对图像变化感知和单图像语义分割。这是首次使用纯视觉模型实现通用异常分割的工作，而不需要依赖特殊异常检测数据集和预训练的视觉-语言模型。我们的方法仅使用一张正常图像提示就能有效且高效地分割任何异常，并且训练过程无须语言指导。我们的MetaUAS在零样本、少样本甚至全样本异常分割方法中具有显著的性能优势。代码和预训练模型可在 https://github.com/gaobb/MetaUAS 获取。