LLM2D

摘要

本文介绍了我们在多模态情感识别挑战赛 (MER2024) 子挑战赛中的情感识别解决方案。为了缓解音频和文本之间的模态竞争问题，我们采用了一种基于大语言模型的早期融合策略，其中音频和文本的联合训练首先进行。然后，联合的音频-文本模态特征将与其他单模态特征进行后期融合。为了解决数据不足和类别不平衡的问题，我们使用多轮多模态投票进行数据挖掘。此外，为了提高音频特征的质量，我们采用语音源分离对音频进行预处理。我们的模型在 MER2024-SEMI 和 MER2024-NOISE 中均排名第二，验证了我们方法的有效性。