摘要
arXiv:2502.10435v1 Announce Type: cross
摘要:传统的多模态多标签情绪识别(MMER)方法通常假设视频中视觉、文本和声学模态的完全可用性。然而,在现实世界中的多人群体场景中,这种假设经常被违反,因为非发言人经常缺乏声学和文本输入,导致模型性能显著下降。现有的方法也倾向于将异质模态统一为单个表示,忽视了每个模态的独特特征。为了解决这些挑战,我们提出了RAMer(基于重建的对抗模型进行情绪识别),它利用了对抗学习通过重建特征来探索模态的共性和特性,这些特征通过对比学习得到增强。RAMer还引入了个性辅助任务,利用模态级注意力补充缺失的模态,从而改进情绪推理。为了进一步增强模型捕捉标签和模态间依赖关系的能力,我们提出了堆叠洗牌策略,以丰富标签与模态特定特征之间的关联。在三个基准数据集,即MEmoR、CMU-MOSEI和$M^3$ED上的实验表明,RAMer在二元和多方MMER场景中达到了最先进性能。