摘要
arXiv:2501.09333v2 通告类型: replace-cross
摘要:我们提出了一种简单的方法,使预训练的视觉变换器(ViTs)适用于精细分析,旨在识别和定位区分视觉上相似类别(如鸟类物种)的独特特征。预训练的ViTs,如DINO,展示了在提取局部、区分性特征方面的卓越能力。然而,Grad-CAM等显著图往往无法识别这些特征,生成模糊、粗糙的热图,突出显示整个对象。我们提出了一种新的方法,即提示类注意图(Prompt-CAM),以解决这一局限性。Prompt-CAM 为预训练的ViT 学习类别特定的提示,并使用相应的输出进行分类。为了正确地对一张图像进行分类,正确的类提示必须关注其他类图像中不存在的独特图像块(即特征)。因此,正确类别的多头注意图揭示了特征及其位置。从实现角度来看,Prompt-CAM 几乎是一个“免费午餐”,只需对视觉提示调优(VPT)的预测头进行修改。这使得Prompt-CAM 容易训练和应用,与其他可解释方法相比,后者需要设计特定模型和训练流程。在鸟类、鱼类、昆虫、真菌、花卉、食物和汽车等各个领域的一打数据集上的广泛实验验证了Prompt-CAM 的优越解释能力。源代码和演示可在https://github.com/Imageomics/Prompt_CAM 获取。