LLM2D

摘要

概念瓶颈模型（CBM）通过构建和解释使用一组高级概念的预测来解决神经架构的不透明性。这些模型的一个特殊属性是它们允许概念干预，用户可以在其中纠正预测错误的概念，从而提高模型的性能。然而，最近的研究表明，干预效果可能高度依赖于干预概念的顺序以及模型的架构和训练超参数。我们认为，这是由于 CBM 缺乏训练时间激励，导致模型无法适当地接受概念干预。为了解决这个问题，我们提出了干预感知概念嵌入模型（IntCEM），这是一种新颖的基于 CBM 的架构和训练范式，它提高了模型对测试时干预的接受能力。我们的模型以端到端的方式学习概念干预策略，从中可以从训练时间采样有意义的干预轨迹。这使 IntCEM 能够在测试时有效地选择和接收概念干预。我们的实验表明，在提供测试时概念干预的情况下，IntCEM 在性能上显著优于最先进的概念可解释模型，证明了我们方法的有效性。