LLM2D

摘要

arXiv:2404.03713v2 更新类型: 交叉替换摘要: 概念基于的解释将深度学习模型的内部表示转化为人类熟悉的语言：概念。找到这些概念的一种流行方法是概念激活向量(Concept Activation Vectors, CAVs)，这些向量是通过使用概念示例的探针数据集学习得到的。在本文中，我们研究了CAVs的三个属性：(1) 不同层之间的不一致性，(2) 与其他概念的纠缠，(3) 空间依赖性。每个属性都既带来了挑战也带来了机会，可以在解释模型时利用这些机会。我们介绍了用于检测这些属性的工具，提供了有关每个属性如何导致误导性解释的见解，并提供了减轻其影响的建议。为了展示实际应用，我们将这些建议应用于皮肤黑色素瘤分类任务，展示了纠缠如何导致不可解释的结果，以及负探针集的选择对CAV意义产生的显著影响。此外，我们展示了理解这些属性可以为我们所用。例如，我们引入了空间依赖性的CAVs，用于测试模型对特定概念和类的平移不变性。我们的实验在自然图像(ImageNet)、皮肤病变(ISIC 2019)以及一个新的合成数据集Elements上进行。Elements数据集专门设计用于捕捉概念与类别之间已知的真实关系。我们发布了这个数据集以促进进一步研究理解和评估解释方法。