LLM2D

摘要

多模态学习的核心任务是整合来自多个特征空间（例如文本和音频）的信息，提供数据模态不变的基本表示。最近的研究表明，当每个模态中的样本都是由共享和私有成分的线性混合生成的时，经典工具（如典型相关分析（CCA））可以证明识别共享成分，最多存在微小的歧义。这种可识别性结果是在跨模态样本根据其共享信息进行对齐/配对的条件下获得的。本工作更进一步，研究了跨模态样本未对齐的多模态线性混合中共享成分的可识别性。提出了一种基于分布差异最小化的损失，在此基础上，推导出了一套确保共享成分可识别性的充分条件。我们的条件基于跨模态分布差异的表征和密度保持变换的去除，这比现有的依赖于独立成分分析的研究要温和得多。通过添加合理的结构约束，还可以提供更宽松的条件，这些约束是受各种应用中可用辅助信息的启发。可识别性主张通过合成数据和真实世界数据得到充分验证。