摘要
多模态学习中的一个核心任务是整合来自多个特征空间(例如,文本和音频)的信息,从而提供数据模态不变的基本表示。最近的研究表明,当每个模态中的样本由共享和私有成分的线性混合生成时,经典工具(如典型相关分析 (CCA))可以证明识别出共享成分,直至微小的歧义。这种可识别性结果是在跨模态样本根据其共享信息进行对齐/配对的条件下获得的。本工作更进一步,研究了跨模态样本未对齐的多模态线性混合中的共享成分可识别性。提出了一种基于分布差异最小化的损失函数,在此基础上,推导出了一系列确保共享成分可识别性的充分条件。我们的条件基于跨模态分布差异特征和密度保持变换去除,这比现有的依赖于独立成分分析的研究要温和得多。通过添加合理的结构约束,也提供了更宽松的条件,这些约束是受各种应用中可用的辅助信息的启发。可识别性主张通过使用合成数据和真实世界数据得到了彻底的验证。