摘要
大型多模态模型 (LMM) 结合单模态编码器和大型语言模型 (LLM) 来执行多模态任务。尽管最近在这些模型的可解释性方面取得了进展,但对 LMM 内部表示的理解在很大程度上仍然是一个谜。本文提出了一种用于解释 LMM 的新框架。我们提出了一种基于字典学习的方法,应用于标记的表示。学习到的字典的元素对应于我们提出的概念。我们证明这些概念在视觉和文本方面都具有良好的语义基础。因此,我们将这些概念称为“多模态概念”。我们定性和定量地评估了学习到的概念的结果。我们证明,提取的多模态概念有助于解释测试样本的表示。最后,我们评估了不同概念之间的 disentanglement 以及视觉和文本方面概念的基础质量。我们的实现代码已公开发布。