LLM2D
基于Transformer的自适应跨模态融合网络:多模态情感识别
TACFN: Transformer-based Adaptive Cross-modal Fusion Network for Multimodal Emotion Recognition
作者: Feng Liu, Ziwang Fu, Yunlong Wang, Qijian Zheng
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.06536v1

摘要

arXiv:2505.06536v1 公告类型: cross 摘要:融合技术是多模态情感识别任务的关键。近年来,基于跨模态注意的融合方法展示了高性能和强健健壮性。然而,跨模态注意会遇到冗余特征的问题,并且不能很好地捕捉互补特征。我们发现,在跨模态交互过程中,不需要使用另一种模态的全部信息来强化另一种模态,可以强化另一模态的特征可能仅包含该模态的一部分。为此,我们设计了一种创新的基于Transformer的自适应跨模态融合网络(TACFN)。具体来说,对于冗余特征,我们让一种模态通过自注意力机制执行本模态的特征选择,以便所选特征能够适应性且高效地与另一种模态交互。为了更好地捕捉模态之间的互补信息,我们通过拼接获得融合权重向量,并通过权重向量实现在模态中的特征增强。我们将TACFN应用于RAVDESS和IEMOCAP数据集。为了公平比较,我们使用相同的单模态表示来验证所提融合方法的有效性。实验结果表明,与其它方法相比,TACFN带来了显著的性能提升,并达到了最先进的水平。所有代码和模型可以从 https://github.com/shuzihuaiyu/TACFN 访问。