LLM2D

摘要

arXiv:2412.12225v3 通知类型: 替换-交叉摘要：多模态情感分析（MSA）利用语言、视觉和音频等多种模态，以增强对人类情感的理解。虽然现有的模型通常专注于跨模态提取共享信息或直接融合异质模态，但这些方法由于所有模态的平等对待以及模态对之间的信息相互转移，可能会引入冗余和冲突。为了解决这些问题，我们提出了一种分离-语言聚焦（DLF）的多模态表示学习框架，该框架结合了特征分离模块，用于分离模态共享和模态特定的信息。为了进一步减少冗余并增强语言目标特征，我们引入了四种几何度量来细化分离过程。进一步地，我们设计了语言聚焦吸引子（LFA），通过语言引导的交叉注意力机制利用互补的模态特定信息，以强化语言表示。该框架还使用分级预测来提高整体准确性。在两个流行的MSA数据集CMU-MOSI和CMU-MOSEI上进行的广泛实验展示了所提出的DLF框架实现的重要性能提升。全面的消融研究进一步验证了特征分离模块、语言聚焦吸引子和分级预测的有效性。我们的代码可在 https://github.com/pwang322/DLF 获得。