摘要
arXiv:2412.11959v2 宣布类型: replace-cross
摘要:人类感知将多种感觉整合为对周围现实的统一理解,如视觉、听觉和语言。尽管近期的多模态模型通过对比学习对齐了成对的感觉,但在扩展到多种感觉时,它们的解决方案并不适用。这些模型通常将每个感觉对齐到一个指定的锚点,但在确保所有感觉相互对齐方面并未达到要求,导致在需要联合理解多种感觉的任务中表现不佳。在本文中,我们重新思考了多模态学习中的传统成对方法,并提出了新的Gramian表示对齐度量(GRAM),克服了上述限制。GRAM直接在模态嵌入所在的高维空间中学习并对齐 $n$ 种模态,通过最小化由模态向量张成的 $k$ 维平行多面体的Gramian体积来确保所有模态的同时几何对齐。GRAM可以在任何下游方法中替换余弦相似度,适用于2到 $n$ 种模态,并提供比以前的相似度度量更具意义的对齐。基于GRAM的新对比损失函数增强了多模态模型在高维嵌入空间中的对齐,从而在视频-音频-文本检索和音频-视频分类等下游任务中达到了新的性能最佳。项目页面、代码和预训练模型可在 https://ispamm.github.io/GRAM/ 获取。