LLM2D

摘要

arXiv:2503.17417v2 宣布类型: replace-cross 摘要：多模态理解在人工智能中起着关键作用，因为它使得模型能够联合解释来自不同模态的输入。然而，传统的对比学习等方法在处理模态差异时往往面临挑战，可能导致潜在的对齐不准确。在本文中，我们提出了一种新颖的类别锚点对齐方法，该方法利用类别概率分布进行多模态表示学习。我们的方法，类别锚点对齐生成模型（CALM），将类别锚点编码为提示，用于生成和对齐每个模态的类别概率分布，从而实现更有效的对齐。此外，我们引入了一种跨模态概率变分自动编码器来建模对齐中的不确定性，增强了捕捉模态和数据变异之间更深层次关系的能力。在四个基准数据集上的广泛实验表明，我们的方法在最新的方法中显著表现更好，特别是在领域外评估中。这突显了其在多模态表示学习中出色的泛化能力。