摘要
arXiv:2503.23721v1 交叉公告类型:跨模态
摘要:对话中的多模态情绪识别(MERC)在文本、音频和视频中识别情绪状态,这对于智能对话系统和意见分析是必不可少的。现有方法直接强调异模态融合以实现跨模态集成,但由于模态异质性和缺乏有效的指导,往往在多模态学习中表现出方向迷失。在本文中,我们提出了一种名为SUMMER的新颖异质多模态集成框架,利用混合专家和层次跨模态融合以及交互式知识蒸馏。关键组成部分包括稀疏动态混合专家(SDMoE)以捕获动态词汇交互,层次跨模态融合(HCMF)以有效融合异质模态,以及交互式知识蒸馏(IKD),该方法使用预训练的单模态教师在潜在空间和logit空间中指导多模态融合。在IEMOCAP和MELD上的实验显示,SUMMER在识别少数情绪和语义相似情绪方面优于最先进的方法。