LLM2D

摘要

arXiv:2504.05158v1 Announce Type: cross 摘要：多模态情绪识别（MER）旨在结合各种模态以准确预测情绪状态。然而，当前大部分研究仅专注于音频和文本特征的融合，忽视了情绪标签中 valuable 的信息。这种忽视可能会阻碍现有方法的性能，因为情绪标签中蕴含了丰富而有洞察力的信息，这些信息可以显著帮助 MER。我们提出了一种名为标签信号引导的多模态情绪识别（LSGMER）的新模型，以克服这一局限。该模型旨在充分利用情绪标签信息，提高情绪识别的分类精度和稳定性。具体而言，LSGMER 使用一个标签信号增强模块，通过标签嵌入与音频和文本特征的交互优化模态特征的表示，使其能够精确捕捉情绪的细微差别。此外，我们提出了一个联合目标优化（JOO）方法，通过引入归因预测一致性约束（APC），增强了融合特征与情绪类别之间的对齐，以提高分类精度。在 IEMOCAP 和 MELD 数据集上的广泛实验已经证明了我们提出的 LSGMER 模型的有效性。