LLM2D

摘要

arXiv:2504.03978v1 类别：交叉领域摘要：概念驱动的可解释人工智能（C-XAI）是一个迅速发展的研究领域，通过利用中间的人类可理解概念来增强AI模型的可解释性。这种方法不仅增强了模型的透明度，还允许人类干预，使用户能够与这些概念互动，以细化和改进模型的性能。概念瓶颈模型（CBMs）在做出最终决策前明确预测概念，从而允许干预纠正误分类的概念。尽管CBMs在有干预的情况下仍然在非分布外（OOD）设置中有效，但它们在与黑箱模型相比时的表现仍然较差。概念嵌入模型（CEMs）通过从概念预测和输入数据中学习概念嵌入来解决这一问题，从而提高了分布内（ID）的准确性，但降低了干预的有效性，尤其是在OOD场景中。在这项工作中，我们提出了变分概念嵌入模型（V-CEM），这是一种利用变分推断提高CEM中干预响应性的模型。我们从分布内（ID）性能、分布内和分布外（OOD）设置中的干预响应性以及我们提出的概念表示一致性（CRC）度量（用于评估概念嵌入表示质量的指标）等方面评估了该模型。结果显示，V-CEM保留了CEM级的ID性能，同时在OOD设置中实现了与CBM相似的干预效果，有效缩小了可解释性（干预）与泛化性（性能）之间的差距。