LLM2D

摘要

arXiv:2501.09333v2 通告类型: replace-cross 摘要：我们提出了一种简单的方法，使预训练的视觉变换器（ViTs）适用于精细分析，旨在识别和定位区分视觉上相似类别（如鸟类物种）的独特特征。预训练的ViTs，如DINO，展示了在提取局部、区分性特征方面的卓越能力。然而，Grad-CAM等显著图往往无法识别这些特征，生成模糊、粗糙的热图，突出显示整个对象。我们提出了一种新的方法，即提示类注意图（Prompt-CAM），以解决这一局限性。Prompt-CAM 为预训练的ViT 学习类别特定的提示，并使用相应的输出进行分类。为了正确地对一张图像进行分类，正确的类提示必须关注其他类图像中不存在的独特图像块（即特征）。因此，正确类别的多头注意图揭示了特征及其位置。从实现角度来看，Prompt-CAM 几乎是一个“免费午餐”，只需对视觉提示调优（VPT）的预测头进行修改。这使得Prompt-CAM 容易训练和应用，与其他可解释方法相比，后者需要设计特定模型和训练流程。在鸟类、鱼类、昆虫、真菌、花卉、食物和汽车等各个领域的一打数据集上的广泛实验验证了Prompt-CAM 的优越解释能力。源代码和演示可在https://github.com/Imageomics/Prompt_CAM 获取。