LLM2D

摘要

arXiv:2505.06110v1 交叉类型公告摘要：该项目使用CMU-MOSEI数据集进行了多模态情感分析，采用基于变换器的模型在早融合的框架下整合文本、音频和视觉模态。我们为每种模态使用了基于BERT的编码器，提取的嵌入在分类前进行拼接。该模型在测试集上取得了强劲的性能，实现了97.87%的7类准确率和0.9682的F1分数，展示了早融合在捕捉跨模态交互方面的有效性。训练过程中采用了Adam优化（学习率=1e-4）、dropout（0.3）和早停策略以确保泛化能力和健壮性。结果强调了变换器架构在建模多模态情感分析方面的优越性，低MAE（0.1060）表明情感强度预测的精准性。未来工作可能比较不同的融合策略或增强可解释性。该方法通过有效结合语言、声学和视觉线索来进行情感分析的多模态学习。