摘要
arXiv:2504.05158v1 Announce Type: cross
摘要:多模态情绪识别(MER)旨在结合各种模态以准确预测情绪状态。然而,当前大部分研究仅专注于音频和文本特征的融合,忽视了情绪标签中 valuable 的信息。这种忽视可能会阻碍现有方法的性能,因为情绪标签中蕴含了丰富而有洞察力的信息,这些信息可以显著帮助 MER。我们提出了一种名为标签信号引导的多模态情绪识别(LSGMER)的新模型,以克服这一局限。该模型旨在充分利用情绪标签信息,提高情绪识别的分类精度和稳定性。具体而言,LSGMER 使用一个标签信号增强模块,通过标签嵌入与音频和文本特征的交互优化模态特征的表示,使其能够精确捕捉情绪的细微差别。此外,我们提出了一个联合目标优化(JOO)方法,通过引入归因预测一致性约束(APC),增强了融合特征与情绪类别之间的对齐,以提高分类精度。在 IEMOCAP 和 MELD 数据集上的广泛实验已经证明了我们提出的 LSGMER 模型的有效性。