LLM2D
可编辑概念瓶颈模型
Editable Concept Bottleneck Models
作者: Lijie Hu, Chenyang Ren, Zhengyu Hu, Hongbin Lin, Cheng-Long Wang, Hui Xiong, Jingfeng Zhang, Di Wang
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2405.15476v2

摘要

概念瓶颈模型 (CBMs) 因其通过人类可理解的概念层阐明预测过程的能力而备受关注。然而,大多数先前的研究集中在数据(包括概念)干净的情况下。在许多情况下,由于各种原因,例如隐私问题、数据错误标记、虚假概念和概念标注错误,我们总是需要从训练好的 CBMs 中移除/插入一些训练数据或新概念。因此,在不从头开始重新训练的情况下推导出可编辑的 CBMs 的挑战仍然存在,特别是在大规模应用中。为了解决这些挑战,我们提出了可编辑的概念瓶颈模型 (ECBMs)。具体来说,ECBMs 支持三种不同的数据移除级别:概念-标签级别、概念级别和数据级别。ECBMs 拥有从影响函数推导出的数学上严格的闭式近似,从而避免了重新训练的需要。实验结果证明了我们 ECBMs 的效率和有效性,证实了它们在 CBMs 领域内的适应性。