LLM2D

摘要

多模态学习中的一个核心任务是整合来自多个特征空间（例如，文本和音频）的信息，从而提供数据模态不变的基本表示。最近的研究表明，当每个模态中的样本由共享和私有成分的线性混合生成时，经典工具（如典型相关分析 (CCA)）可以证明识别出共享成分，直至微小的歧义。这种可识别性结果是在跨模态样本根据其共享信息进行对齐/配对的条件下获得的。本工作更进一步，研究了跨模态样本未对齐的多模态线性混合中的共享成分可识别性。提出了一种基于分布差异最小化的损失函数，在此基础上，推导出了一系列确保共享成分可识别性的充分条件。我们的条件基于跨模态分布差异特征和密度保持变换去除，这比现有的依赖于独立成分分析的研究要温和得多。通过添加合理的结构约束，也提供了更宽松的条件，这些约束是受各种应用中可用的辅助信息的启发。可识别性主张通过使用合成数据和真实世界数据得到了彻底的验证。