LLM2D

摘要

arXiv:2503.22687v1 Announce Type: 多模态摘要：情绪识别在智能人机交互系统中起着关键作用。多模态方法得益于多种模态数据的融合，从而提高识别准确性。然而，高质量多模态数据的缺乏以及不同模态之间最优对齐的挑战极大地限制了多模态方法的改进潜力。在本文中，提出的Qieemo框架有效地利用了预训练的自动语音识别(ASR)模型骨干，该骨干包含了自然对齐的文字和情绪特征，仅基于音频模态实现精确的情绪分类。此外，我们设计了多模态融合（MMF）模块和跨模态注意力（CMA）模块，以融合ASR编码器提取的音素后验图（PPG）和情绪特征，从而提高识别准确性。在IEMOCAP数据集上的实验结果表明，Qieemo分别在单模态、多模态和自监督模型上取得了绝对提高，分别为3.0%、1.2%和1.9%。