摘要
arXiv:2409.05929v4 通知类型: replace-cross
摘要:当前的多模态对齐策略主要使用单模态或统一模态编码器,并在原始标记空间内进行对齐优化。这种框架易于实现并可以与预训练知识相结合,但可能会导致信息偏差。为应对这些问题,联合编码预测架构(JEPA)在潜在空间中学习对齐损失,使用预测器将输入编码转换为输出潜在空间。然而,JEPA在多模态场景中的应用到目前为止是有限的。在本文中,我们引入了M3-Jepa,这是一种可扩展的多模态对齐框架,其中预测器通过多方向的专家混合(MoE)实现。我们通过信息理论推导展示了框架可以通过交替不同的单方向任务的优化来最大化互信息。通过精心设计的实验,我们表明M3-Jepa可以在不同模态和任务上获得最先进的性能,对未见过的数据集和领域具有泛化能力,并且在训练和推断时具有计算效率。我们的研究指出,M3-Jepa可能为自监督学习和开放世界建模提供一种新的范式。