LLM2D
解释解释性:概念激活向量的有效使用建议
Explaining Explainability: Recommendations for Effective Use of Concept Activation Vectors
作者: Angus Nicolson, Lisa Schut, J. Alison Noble, Yarin Gal
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2404.03713v2

摘要

arXiv:2404.03713v2 更新类型: 交叉替换 摘要: 概念基于的解释将深度学习模型的内部表示转化为人类熟悉的语言:概念。找到这些概念的一种流行方法是概念激活向量(Concept Activation Vectors, CAVs),这些向量是通过使用概念示例的探针数据集学习得到的。在本文中,我们研究了CAVs的三个属性:(1) 不同层之间的不一致性,(2) 与其他概念的纠缠,(3) 空间依赖性。每个属性都既带来了挑战也带来了机会,可以在解释模型时利用这些机会。我们介绍了用于检测这些属性的工具,提供了有关每个属性如何导致误导性解释的见解,并提供了减轻其影响的建议。为了展示实际应用,我们将这些建议应用于皮肤黑色素瘤分类任务,展示了纠缠如何导致不可解释的结果,以及负探针集的选择对CAV意义产生的显著影响。此外,我们展示了理解这些属性可以为我们所用。例如,我们引入了空间依赖性的CAVs,用于测试模型对特定概念和类的平移不变性。我们的实验在自然图像(ImageNet)、皮肤病变(ISIC 2019)以及一个新的合成数据集Elements上进行。Elements数据集专门设计用于捕捉概念与类别之间已知的真实关系。我们发布了这个数据集以促进进一步研究理解和评估解释方法。