LLM2D

摘要

arXiv:2410.15029v2 宣告类型: 替换交叉摘要: 在多模态情感分析中，收集文本数据往往比视频或音频更具挑战性，因为注释成本更高且自动语音识别(ASR)质量不一致。为了解决这一挑战，我们的研究开发了一种稳健的模型，该模型能够有效地整合多模态情感信息，即使在缺少文本模态的情况下也是如此。具体而言，我们开发了一种双流自蒸馏框架，包括统一模态跨注意力(UMCA)和模态想象自编码器(MIA)，该框架在处理完整模态和缺少文本模态的场景方面表现出色。具体而言，当缺少文本模态时，我们的框架利用基于LLM的模型从音频模态模拟文本表示，而MIA模块从其他两种模态补充信息，使模拟的文本表示类似于真实的文本表示。为了进一步对齐模拟和真实表示，并使模型能够捕捉情感强度回归任务中的样本顺序的连续性质，我们还引入了秩- N 对比(RNC)损失函数。在对CMU-MOSEI进行测试时，我们的模型在MAE上取得了出色的表现，并且在缺少文本模态的情况下明显优于其他模型。代码可在以下链接获取：https://github.com/WarmCongee/SDUMC