摘要
arXiv:2504.09459v1 类型:交叉
摘要:概念瓶颈模型(CBMs)旨在通过将预测结构化在人类可理解的概念周围来增强可解释性。然而,意外信息泄露,即预测信号绕过概念瓶颈,破坏了其透明度。本文介绍了一种信息论测度来量化CBMs中的泄露,捕捉概念嵌入中编码的超出指定概念的额外、意外信息的程度。我们通过受控的合成实验验证了该测度的有效性,展示了其在各种配置中检测泄露趋势的有效性。我们的研究结果表明,特征和概念维度显著影响泄露,分类器的选择影响测度的稳定性,XGBoost 出现为最可靠的估算器。此外,初步研究表明,当应用于软联合CBMs时,该测度表现出预期的行为,这表明其在合成设置之外的泄漏量化中的可靠性。尽管本研究在受控的合成实验中严格评价了该测度,但未来的工作可以将其应用扩展到实际数据集。