LLM2D

摘要

近年来，基于概念的可解释模型通过预定义的概念集成功地提供了有意义的解释。然而，对预定义概念的依赖限制了其应用，因为用于解释的概念数量有限。本文提出了一种名为解释瓶颈模型 (XBMs) 的新型可解释深度神经网络。XBMs 在没有预定义概念的情况下从输入中生成文本解释，然后通过利用预训练的视觉语言编码器-解码器模型，根据生成的解释预测最终的任务预测。为了同时实现目标任务性能和解释质量，我们通过目标任务损失训练 XBMs，并使用来自冻结的预训练解码器的蒸馏来惩罚解释解码器的正则化。我们的实验（包括与最先进的概念瓶颈模型的比较）证实，XBMs 在没有预定义概念集的情况下提供了准确且流畅的自然语言解释。代码将在 https://github.com/yshinya6/xbm/ 上提供。