摘要
多模态学习的核心任务是整合来自多个特征空间(例如文本和音频)的信息,提供数据模态不变的基本表示。最近的研究表明,当每个模态中的样本都是由共享和私有成分的线性混合生成的时,经典工具(如典型相关分析(CCA))可以证明识别共享成分,最多存在微小的歧义。这种可识别性结果是在跨模态样本根据其共享信息进行对齐/配对的条件下获得的。本工作更进一步,研究了跨模态样本未对齐的多模态线性混合中共享成分的可识别性。提出了一种基于分布差异最小化的损失,在此基础上,推导出了一套确保共享成分可识别性的充分条件。我们的条件基于跨模态分布差异的表征和密度保持变换的去除,这比现有的依赖于独立成分分析的研究要温和得多。通过添加合理的结构约束,还可以提供更宽松的条件,这些约束是受各种应用中可用辅助信息的启发。可识别性主张通过合成数据和真实世界数据得到充分验证。