LLM2D

摘要

arXiv:2502.14889v1 交叉类型: cross 摘要: 识别跨模态图像-文本表示的任务正逐渐引起关注，特别是在CLIP（对比语言-图像预训练）等模型中，这些模型在学习图像和文本之间复杂关联方面表现出色。尽管取得了这些进展，但确保这些模型的可解释性对于它们在现实世界应用中的安全部署至关重要，如医疗保健领域。尽管针对单模态任务开发了大量可解释性方法，但这些方法往往难以有效转移至多模态上下文，这是因为表现结构上的固有差异。信息论中已有良好的瓶颈方法被应用于提高CLIP的可解释性。然而，这些方法通常受到强假设或固有随机性的限制。为了克服这些挑战，我们提出了信息瓶颈理论的缩小框架，这是一种全新的框架，从根本上重新定义了传统的瓶颈方法。该理论特别设计以满足当前的归因公理，提供了一种更 robust 和可靠的解决方案，以改进多模态模型的可解释性。在我们的实验中，与最先进的方法相比，我们方法在图像可解释性上平均提升了9%，在文本可解释性上平均提升了58.83%，并且在处理速度上提高了63.95%。我们的代码可在 https://github.com/LMBTough/NIB 公开获取。