摘要
arXiv:2502.13632v1 宣告类型: cross
摘要:大型语言模型(LLMs)的不透明性质导致了大量旨在增强其可解释性的研究努力,主要通过事后方法实现。更近期的集成中方法,如概念瓶颈模型(CBMs),通过引入明确的概念表示,提供了可解释性和干预性。然而,这些方法存在一些关键限制,包括对标记的概念数据集的依赖以及会对现有系统管道重新集成造成挑战的显著架构修改。在本文中,我们提出了一种新的方法,通过将概念层(CLs)集成到现有模型的架构中,来在现有模型中引入可解释性和干预性。我们的方法将模型的内部向量表示投影到一个概念性的、可解释的向量空间中,再进行重构并反馈给模型。此外,我们通过算法搜索领域本体来消除对人工选定的概念集的需求,可以为特定任务或通用任务选择一组概念。我们在多个任务上评估了CLs,证明它们能够保持原始模型的性能和一致性,同时也允许进行有意义的干预。此外,我们展示了概念干预接口的样例,允许用户在推理过程中动态调整模型行为,例如减轻推理中的偏差。