LLM2D

摘要

arXiv:2505.04642v1 文本分类类型：交叉摘要：多模态情感分析是情感计算中的一个关键任务，其目标是通过整合来自语言、音频和视觉信号的线索来理解人类情绪。虽然许多近期的方法利用了复杂的注意力机制和分层架构，但我们提出了一种轻量级但有效的基于融合的深度学习模型，专门用于话语级情绪分类。我们使用包括对齐文本、音频衍生的数值特征和视觉描述的基准IEMOCAP数据集，设计了一个使用全连接层和随后的dropout正则化的模态特定编码器。模态特定的表示随后通过简单的串联融合，并通过密集融合层来捕获跨模态交互。这种简化的架构避免了计算开销，同时保持了性能，实现了六类情绪分类精度92%。我们的方法证明，在仔细的特征工程和模块化设计下，更简单的融合策略可以在资源受限的环境中优于或匹配合更为复杂的模型。