LLM2D
双向模式连接注意力融合在语音情感识别中的应用
Bimodal Connection Attention Fusion for Speech Emotion Recognition
作者: Jiachen Luo, Huy Phan, Lin Wang, Joshua D. Reiss
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.05858v3

摘要

arXiv:2503.05858v3 二模态情绪识别类型:替换-交叉 摘要:由于难以提取捕捉细微情绪差异的特征,多模态情绪识别具有挑战性。理解多模态交互和连接是构建有效的双模态语音情绪识别系统的关键。在这项工作中,我们提出了双模态连接注意力融合(BCAF)方法,该方法包括三个主要模块:交互连接网络、双模态注意力网络和相关注意力网络。交互连接网络采用编码器-解码器架构来建模音频和文本之间的模态连接,同时利用模态特异性特征。双模态注意力网络增强了语义补充,并利用了跨模态和模内交互。相关注意力网络减少了跨模态噪音,并捕捉了音频和文本之间的相关性。在MELD和IEMOCAP数据集上的实验表明,提出的BCAF方法优于现有最先进的基线方法。