摘要
arXiv:2503.06405v3 公告类型: replace-cross
摘要:会话中的多模态情感识别是一个具有挑战性的问题,因为不同模态之间存在复杂的互补交互。尤其是声学和文本线索对于从人类视角理解情感尤为重要。现有的大多数研究集中在在同一表示级别上探索音频和文本模态之间的交互。然而,一个关键问题往往被忽视:低级音频表示与高级文本表示之间的异质模态差距。为了解决这一问题,我们提出了一个名为 Heterogeneous Bimodal Attention Fusion (HBAF) 的新颖框架,用于会话情感识别中的多层次多模态交互。该提出的算法包含三个关键模块:单模态表示模块、多模态融合模块和跨模态对比学习模块。单模态表示模块将上下文内容融入低级音频表示中,以弥合异质多模态差距,从而实现更有效的融合。多模态融合模块使用动态双模态注意力和动态门控机制来过滤错误的跨模态关系,并充分挖掘模内和模态间交互。最后,跨模态对比学习模块捕捉音频和文本模态之间的复杂绝对和相对交互。在 MELD 和 IEMOCAP 数据集上的实验表明,提出的 HBAF 方法优于现有最先进的基线方法。