LLM2D

摘要

arXiv:2409.17663v3 解释类型: 替换摘要：最近基于概念的可解释模型通过预定义的概念集成功提供了有意义的解释。然而，依赖于预定义的概念限制了其应用，因为可用于解释的概念数量有限。本文提出了一种名为解释瓶颈模型（XBMs）的新型可解释深度神经网络。XBMs 不使用预定义的概念直接从输入生成文本解释，然后通过利用预训练的视觉-语言编码器-解码器模型基于生成的解释来预测最终任务预测。为了同时实现目标任务性能和解释质量，我们通过目标任务损失以及通过冻结的预训练解码器的蒸馏惩罚解释解码器来训练 XBMs。我们的实验包括与最先进的概念瓶颈模型的比较，证实了 XBMs 在不使用预定义概念集的情况下提供了准确且流畅的自然语言解释。代码可在 https://github.com/yshinya6/xbm/ 获取。