LLM2D

摘要

arXiv:2502.14888v1 交叉类型: cross 摘要: 在本文中，我们利用特征单义性的 recent 进展从深度多模态模型中提取可解释特征，为模态差距提供数据驱动的理解。具体而言，我们研究了基于大量图像-文本对训练的 CLIP（对比语言-图像预训练）这一主流的视觉-语言表示模型。在为单模态模型开发的可解释性工具的基础上，我们扩展了这些方法来评估 CLIP 特征的多模态可解释性。此外，我们引入了模态主导度分数（MDS）来将每个特征的可解释性归因于其相应的模态。接下来，我们将 CLIP 特征转换为更具可解释性的空间，使我们能够将它们分为三个不同的类别：视觉特征（单模态）、语言特征（单模态）和视觉-语言特征（跨模态）。我们的研究发现，这种分类与不同模态的人类认知理解高度一致。我们还展示了这种特定于模态的特征在检测性别偏见、对抗攻击防御和文本到图像模型编辑方面的显著用途。这些结果表明，配备通用任务可解释性工具的大规模多模态模型为不同模态之间的关键联系和区别提供了有价值的见解。