LLM2D
基于概念的方法中的泄漏测量:一种信息论方法
Measuring Leakage in Concept-Based Methods: An Information Theoretic Approach
作者: Mikael Makonnen, Moritz Vandenhirtz, Sonia Laguna, Julia E Vogt
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09459v1

摘要

arXiv:2504.09459v1 类型:交叉 摘要:概念瓶颈模型(CBMs)旨在通过将预测结构化在人类可理解的概念周围来增强可解释性。然而,意外信息泄露,即预测信号绕过概念瓶颈,破坏了其透明度。本文介绍了一种信息论测度来量化CBMs中的泄露,捕捉概念嵌入中编码的超出指定概念的额外、意外信息的程度。我们通过受控的合成实验验证了该测度的有效性,展示了其在各种配置中检测泄露趋势的有效性。我们的研究结果表明,特征和概念维度显著影响泄露,分类器的选择影响测度的稳定性,XGBoost 出现为最可靠的估算器。此外,初步研究表明,当应用于软联合CBMs时,该测度表现出预期的行为,这表明其在合成设置之外的泄漏量化中的可靠性。尽管本研究在受控的合成实验中严格评价了该测度,但未来的工作可以将其应用扩展到实际数据集。