LLM2D
Milmer:一种基于多实例学习的多模态情绪识别框架
Milmer: a Framework for Multiple Instance Learning based Multimodal Emotion Recognition
作者: Zaitian Wang, Jian He, Yu Liang, Xiyuan Hu, Tianhao Peng, Kaixin Wang, Jiakai Wang, Chenlong Zhang, Weili Zhang, Shuang Niu, Xiaoyang Xie
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00547v1

摘要

arXiv:2502.00547v1 交叉公告类型 摘要:情绪在人类行为和决策中发挥着至关重要的作用,使情绪识别成为人机交互(HCI)的关键研究领域。本研究通过将面部表情分析与脑电图(EEG)信号相结合,引入了一种新颖的多模态框架-Milmer,以应对情绪识别的挑战。所提出的框架采用基于Transformer的融合方法,有效地将视觉和生理模态整合在一起。该框架由EEG预处理模块、面部特征提取和平衡模块以及跨模态融合模块组成。为了增强视觉特征提取,我们在预训练的Swin Transformer上对情绪相关的数据集进行了微调。此外,引入了跨注意力机制,以确保各模态中的令牌表示平衡,从而实现有效的特征融合。本研究的一个关键创新点是采用了多实例学习(MIL)方法,该方法可以从时间上提取多张面部表情图像中的有意义信息,捕捉到以前研究中经常忽视的关键时间动态。对DEAP数据集进行的广泛实验表明,所提出的框架在四类情绪识别任务中的分类准确率达到96.72%,进一步的消融研究验证了每个模块的贡献,突显了高级特征提取和融合策略在提高情绪识别性能中的重要性。我们的代码可在https://github.com/liangyubuaa/Milmer获取。