LLM2D

摘要

arXiv:2501.19271v1 Announce Type: 新发现摘要：概念基础解释方法，如概念瓶颈模型（CBMs），旨在通过将其决策与人类可理解的概念联系起来，提高机器学习模型的可解释性，前提是这些概念可以准确地归因于网络的特征空间。然而，这种基本假设尚未得到严格的验证，主要是因为该领域缺乏用于评估这些概念的存在及其空间对齐的标准化度量和基准。为了解决这个问题，我们提出了三种度量方法：概念全局重要性度量、概念存在度量和概念位置度量，包括一种概念激活可视化技术，即概念激活图。我们用事后CBMs进行基准测试，以展示它们的能力和挑战。通过定性和定量实验，我们证明，在许多情况下，根据事后CBMs确定的最重要概念甚至不存在于输入图像中；此外，当这些概念确实存在时，它们的显著性图也无法与预期的区域对齐，要么激活整个对象，要么错误地标识特定概念的相关区域。我们分析了这些局限性的根本原因，例如概念的自然相关性。我们的发现强调，在空间可解释性至关重要的环境中，更仔细地应用基于概念的解释技术的必要性。