LLM2D

摘要

arXiv:2501.11309v2 announce type: replace-cross 摘要：类激活图（CAM）已被广泛用于强调对分类预测有贡献的图像区域。尽管CAM非常简单且计算效率高，但它在识别视觉上相似但具有细微差异的类别的区分区域方面常常表现不佳。此前的努力通过引入更复杂的解释过程来解决这一局限性，但代价是增加了额外的复杂性。在本文中，我们提出了一种Finer-CAM方法，该方法保持了CAM的高效性，同时实现了对区分区域的精确定位。我们的关键见解是，CAM的问题不在于“如何”解释，而在于“解释什么”。具体而言，之前的尝试试图识别所有对目标类logit值有贡献的线索，这无意中也激活了预测外观上相似类别的区域。通过显式地将目标类与其他相似类进行比较并找出它们之间的差异，Finer-CAM抑制了与其他类别共享的特征，强调了目标类的独特、区分性的细节。Finer-CAM易于实施，与各种CAM方法兼容，并可以扩展到多模态模型以实现特定概念的精确定位。此外，Finer-CAM允许调整比较强度，使用户能够有选择地突出显示粗略的物体轮廓或精细的区分性细节。定量实验显示，通过遮蔽Finer-CAM激活的前5%像素，与基线相比，相对置信度下降更大。源代码和示例可在https://github.com/Imageomics/Finer-CAM获取。