摘要
现有的方法,例如概念瓶颈模型(CBMs),在为黑盒深度学习模型提供基于概念的解释方面取得了成功。它们通常通过根据输入预测概念,然后根据预测的概念预测最终类别标签来工作。然而,(1) 它们往往无法捕捉到概念之间的高阶非线性交互,例如,纠正预测的概念(例如,“黄色胸部”)并不能帮助纠正高度相关的概念(例如,“黄色腹部”),导致最终精度不佳;(2) 它们无法自然地量化不同概念和类别标签之间的复杂条件依赖关系(例如,对于具有类别标签“肯塔基莺”和概念“黑色喙”的图像,模型正确预测另一个概念“黑色冠”的概率是多少),因此无法提供对黑盒模型工作原理的更深入见解。为了解决这些局限性,我们提出了基于能量的概念瓶颈模型(ECBMs)。我们的 ECBMs 使用一组神经网络来定义候选(输入、概念、类别)元组的联合能量。通过这种统一的接口,预测、概念校正和条件依赖关系量化随后被表示为条件概率,这些概率是通过组合不同的能量函数生成的。我们的 ECBMs 解决了现有 CBMs 的两个局限性,提供了更高的准确性和更丰富的概念解释。实证结果表明,我们的方法在真实世界数据集上优于最先进的方法。