摘要
arXiv:2504.03978v1 类别:交叉领域
摘要:概念驱动的可解释人工智能(C-XAI)是一个迅速发展的研究领域,通过利用中间的人类可理解概念来增强AI模型的可解释性。这种方法不仅增强了模型的透明度,还允许人类干预,使用户能够与这些概念互动,以细化和改进模型的性能。概念瓶颈模型(CBMs)在做出最终决策前明确预测概念,从而允许干预纠正误分类的概念。尽管CBMs在有干预的情况下仍然在非分布外(OOD)设置中有效,但它们在与黑箱模型相比时的表现仍然较差。概念嵌入模型(CEMs)通过从概念预测和输入数据中学习概念嵌入来解决这一问题,从而提高了分布内(ID)的准确性,但降低了干预的有效性,尤其是在OOD场景中。在这项工作中,我们提出了变分概念嵌入模型(V-CEM),这是一种利用变分推断提高CEM中干预响应性的模型。我们从分布内(ID)性能、分布内和分布外(OOD)设置中的干预响应性以及我们提出的概念表示一致性(CRC)度量(用于评估概念嵌入表示质量的指标)等方面评估了该模型。结果显示,V-CEM保留了CEM级的ID性能,同时在OOD设置中实现了与CBM相似的干预效果,有效缩小了可解释性(干预)与泛化性(性能)之间的差距。