摘要
arXiv:2410.15029v2 宣告类型: 替换交叉
摘要: 在多模态情感分析中,收集文本数据往往比视频或音频更具挑战性,因为注释成本更高且自动语音识别(ASR)质量不一致。为了解决这一挑战,我们的研究开发了一种稳健的模型,该模型能够有效地整合多模态情感信息,即使在缺少文本模态的情况下也是如此。具体而言,我们开发了一种双流自蒸馏框架,包括统一模态跨注意力(UMCA)和模态想象自编码器(MIA),该框架在处理完整模态和缺少文本模态的场景方面表现出色。具体而言,当缺少文本模态时,我们的框架利用基于LLM的模型从音频模态模拟文本表示,而MIA模块从其他两种模态补充信息,使模拟的文本表示类似于真实的文本表示。为了进一步对齐模拟和真实表示,并使模型能够捕捉情感强度回归任务中的样本顺序的连续性质,我们还引入了秩- N 对比(RNC)损失函数。在对CMU-MOSEI进行测试时,我们的模型在MAE上取得了出色的表现,并且在缺少文本模态的情况下明显优于其他模型。代码可在以下链接获取:https://github.com/WarmCongee/SDUMC