LLM2D

摘要

arXiv:2502.10435v1 Announce Type: cross 摘要：传统的多模态多标签情绪识别（MMER）方法通常假设视频中视觉、文本和声学模态的完全可用性。然而，在现实世界中的多人群体场景中，这种假设经常被违反，因为非发言人经常缺乏声学和文本输入，导致模型性能显著下降。现有的方法也倾向于将异质模态统一为单个表示，忽视了每个模态的独特特征。为了解决这些挑战，我们提出了RAMer（基于重建的对抗模型进行情绪识别），它利用了对抗学习通过重建特征来探索模态的共性和特性，这些特征通过对比学习得到增强。RAMer还引入了个性辅助任务，利用模态级注意力补充缺失的模态，从而改进情绪推理。为了进一步增强模型捕捉标签和模态间依赖关系的能力，我们提出了堆叠洗牌策略，以丰富标签与模态特定特征之间的关联。在三个基准数据集，即MEmoR、CMU-MOSEI和$M^3$ED上的实验表明，RAMer在二元和多方MMER场景中达到了最先进性能。