LLM2D
基于核主成分分析的可视化深度计算机视觉模型解释方法
KPCA-CAM: Visual Explainability of Deep Computer Vision Models using Kernel PCA
作者: Sachin Karmani, Thanushon Sivakaran, Gaurav Prasad, Mehmet Ali, Wenbo Yang, Sheyang Tang
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00267v1

摘要

深度学习模型通常如同黑盒,无法直接解释其预测的推理过程。这在计算机视觉模型中尤为明显,这类模型处理像素值张量以生成图像分类和目标检测等任务的结果。为了阐明这些模型的推理过程,类激活图(CAM)被用来突出影响模型输出的显著区域。本研究引入了 KPCA-CAM,这是一种旨在通过改进的类激活图来增强卷积神经网络(CNN)可解释性的技术。KPCA-CAM 利用主成分分析(PCA)结合核技巧,更有效地捕获 CNN 激活中的非线性关系。通过使用核函数将数据映射到更高维的空间并从这个变换后的超平面中提取主成分,KPCA-CAM 提供了对潜在数据流形的更准确表示。这使得能够更深入地理解影响 CNN 决策的特征。在不同 CNN 模型的 ILSVRC 数据集上的实证评估表明,与现有的 CAM 算法相比,KPCA-CAM 生成了更精确的激活图,提供了对模型推理过程的更清晰见解。本研究推动了 CAM 技术的发展,为研究人员和从业者提供了一个强大的工具,以更深入地了解 CNN 决策过程和整体行为。