摘要
arXiv:2505.06110v1 交叉类型公告
摘要:该项目使用CMU-MOSEI数据集进行了多模态情感分析,采用基于变换器的模型在早融合的框架下整合文本、音频和视觉模态。我们为每种模态使用了基于BERT的编码器,提取的嵌入在分类前进行拼接。该模型在测试集上取得了强劲的性能,实现了97.87%的7类准确率和0.9682的F1分数,展示了早融合在捕捉跨模态交互方面的有效性。训练过程中采用了Adam优化(学习率=1e-4)、dropout(0.3)和早停策略以确保泛化能力和健壮性。结果强调了变换器架构在建模多模态情感分析方面的优越性,低MAE(0.1060)表明情感强度预测的精准性。未来工作可能比较不同的融合策略或增强可解释性。该方法通过有效结合语言、声学和视觉线索来进行情感分析的多模态学习。