LLM2D
基于概念的模型中的泄漏与可解释性
Leakage and Interpretability in Concept-Based Models
作者: Enrico Parisini, Tapabrata Chakraborti, Chris Harbron, Ben D. MacArthur, Christopher R. S. Banerji
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14094v1

摘要

arXiv:2504.14094v1 类别:交叉科学 摘要:概念瓶颈模型旨在通过预测高层中间概念来提高可解释性,这为在高风险场景中部署提供了有希望的方法。然而,它们已知会受到信息泄露的问题困扰,即模型会利用在学习概念中编码的未预期信息。我们引入了一种信息论框架,以严格表征和量度泄露,并定义了两个互补的指标:概念任务泄露(CTL)得分和概念间泄露(ICL)得分。我们表明,这些指标在干预下的模型行为可预测性很强,并且在稳健性和可靠性方面优于现有替代方法。使用此框架,我们识别了泄露的主要原因,并提供了强烈证据表明,无论超参数选择如何,概念嵌入模型都会表现出显著的泄露。最后,我们提出了实用的指导方针,旨在减少泄露并确保概念模型的可解释性。