LLM2D
早期情感信息的联合学习让多模态模型更好地理解你
Early Joint Learning of Emotion Information Makes MultiModal Model Understand You Better
作者: Mengying Ge, Mingyang Li, Dongkai Tang, Pengbo Li, Kuo Liu, Shuhao Deng, Songbai Pu, Long Liu, Yang Song, Tao Zhang
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.18971v1

摘要

本文介绍了我们在多模态情感识别挑战赛 (MER2024) 子挑战赛中的情感识别解决方案。为了缓解音频和文本之间的模态竞争问题,我们采用了一种基于大语言模型的早期融合策略,其中音频和文本的联合训练首先进行。然后,联合的音频-文本模态特征将与其他单模态特征进行后期融合。为了解决数据不足和类别不平衡的问题,我们使用多轮多模态投票进行数据挖掘。此外,为了提高音频特征的质量,我们采用语音源分离对音频进行预处理。我们的模型在 MER2024-SEMI 和 MER2024-NOISE 中均排名第二,验证了我们方法的有效性。