摘要
本文介绍了我们在多模态情感识别挑战赛 (MER2024) 子挑战赛中的情感识别解决方案。为了缓解音频和文本之间的模态竞争问题,我们采用了一种基于大语言模型的早期融合策略,其中音频和文本的联合训练首先进行。然后,联合的音频-文本模态特征将与其他单模态特征进行后期融合。为了解决数据不足和类别不平衡的问题,我们使用多轮多模态投票进行数据挖掘。此外,为了提高音频特征的质量,我们采用语音源分离对音频进行预处理。我们的模型在 MER2024-SEMI 和 MER2024-NOISE 中均排名第二,验证了我们方法的有效性。