摘要
arXiv:2503.06405v2 举报类型: replace-cross
摘要:多模态情感识别在对话中的挑战问题在于不同模态之间复杂的互补交互。音频和文本提示对从人类视角理解情感尤为重要。现有的大多数研究集中在探索在同一表示级别下的音频和文本模态之间的交互。然而,一个关键问题常常被忽略:低级音频表示与高级文本表示之间的异构模态差距。为了解决这一问题,我们提出了一种名为异构二模态注意融合(HBAF)的新框架,用于对话情感识别的多级多模态交互。该提出的方法包括三个关键模块:单模态表示模块、多模态融合模块和跨模态对比学习模块。单模态表示模块将上下文内容融入到低级音频表示中,以弥补异构多模态差距,从而实现更有效的融合。多模态融合模块使用动态二模态注意和动态门控机制来过滤错误的跨模态关系,充分挖掘模内和模间交互。最后,跨模态对比学习模块捕获音频和文本模态之间的复杂绝对和相对交互。在MELD和IEMOCAP数据集上的实验表明,提出的HBAF方法优于现有最先进的基线方法。