LLM2D

摘要

概念瓶颈模型 (CBMs) 因其通过人类可理解的概念层阐明预测过程的能力而备受关注。然而，大多数先前的研究集中在数据（包括概念）干净的情况下。在许多情况下，由于各种原因，例如隐私问题、数据错误标记、虚假概念和概念标注错误，我们总是需要从训练好的 CBMs 中移除/插入一些训练数据或新概念。因此，在不从头开始重新训练的情况下推导出可编辑的 CBMs 的挑战仍然存在，特别是在大规模应用中。为了解决这些挑战，我们提出了可编辑的概念瓶颈模型 (ECBMs)。具体来说，ECBMs 支持三种不同的数据移除级别：概念-标签级别、概念级别和数据级别。ECBMs 拥有从影响函数推导出的数学上严格的闭式近似，从而避免了重新训练的需要。实验结果证明了我们 ECBMs 的效率和有效性，证实了它们在 CBMs 领域内的适应性。