LLM2D

摘要

arXiv:2504.11082v1 多模态融合类型: 交叉摘要：尽管在多模态情感分析（MSA）中广泛研究了多模态融合，但融合深度和多模态容量分配的作用尚未得到充分探索。在本文中，我们将融合深度、可扩展性和专用的多模态容量定位为主要影响因素。我们引入了DeepMLF，这是一种新型的专为深度融合设计的可学习标记多模态语言模型（LM）。DeepMLF 利用了视听编码器和预训练解码器LM，并在其各层中增加了跨模态信息。我们在LM中附加了可学习标记，这些标记：1) 以受控的方式捕捉模态间的交互，并2) 保留各模态独立的信息流。这些融合标记通过LM块中的因果自注意聚集语言信息，并通过跨注意力MM块与视听信息整合。作为专为多模态设计的容量，这种设计允许在多层间实现渐进融合，提供了融合过程中的深度。我们的训练配方结合了模态特定损失和语言建模损失，解码器LM的任务是预测真实的情感极性。在三个具有不同数据集特性的MSA基准测试中，DeepMLF 达到了最先进的性能。我们的结果证实，更深的融合能实现更好的性能，最佳的融合深度（5-7层）超过了现有方法的深度。此外，我们对融合标记数量的分析显示，小标记集（≈20）能实现最佳性能。我们通过视听编码器初始化实验检查了表示学习顺序（融合课程）的重要性。我们的消融研究表明了所提议的融合设计和门控的优越性，并对DeepMLF在大规模语言模型上的扩展性以及每个训练目标和嵌入正则化的影响进行了全面的考察。