LLM2D

摘要

arXiv:2504.14094v1 类别：交叉科学摘要：概念瓶颈模型旨在通过预测高层中间概念来提高可解释性，这为在高风险场景中部署提供了有希望的方法。然而，它们已知会受到信息泄露的问题困扰，即模型会利用在学习概念中编码的未预期信息。我们引入了一种信息论框架，以严格表征和量度泄露，并定义了两个互补的指标：概念任务泄露（CTL）得分和概念间泄露（ICL）得分。我们表明，这些指标在干预下的模型行为可预测性很强，并且在稳健性和可靠性方面优于现有替代方法。使用此框架，我们识别了泄露的主要原因，并提供了强烈证据表明，无论超参数选择如何，概念嵌入模型都会表现出显著的泄露。最后，我们提出了实用的指导方针，旨在减少泄露并确保概念模型的可解释性。