LLM2D

摘要

arXiv:2504.09459v1 类型:交叉摘要:概念瓶颈模型(CBMs)旨在通过将预测结构化在人类可理解的概念周围来增强可解释性。然而，意外信息泄露，即预测信号绕过概念瓶颈，破坏了其透明度。本文介绍了一种信息论测度来量化CBMs中的泄露，捕捉概念嵌入中编码的超出指定概念的额外、意外信息的程度。我们通过受控的合成实验验证了该测度的有效性，展示了其在各种配置中检测泄露趋势的有效性。我们的研究结果表明，特征和概念维度显著影响泄露，分类器的选择影响测度的稳定性，XGBoost 出现为最可靠的估算器。此外，初步研究表明，当应用于软联合CBMs时，该测度表现出预期的行为，这表明其在合成设置之外的泄漏量化中的可靠性。尽管本研究在受控的合成实验中严格评价了该测度，但未来的工作可以将其应用扩展到实际数据集。