LLM2D

摘要

arXiv:2502.00547v1 交叉公告类型摘要：情绪在人类行为和决策中发挥着至关重要的作用，使情绪识别成为人机交互（HCI）的关键研究领域。本研究通过将面部表情分析与脑电图（EEG）信号相结合，引入了一种新颖的多模态框架-Milmer，以应对情绪识别的挑战。所提出的框架采用基于Transformer的融合方法，有效地将视觉和生理模态整合在一起。该框架由EEG预处理模块、面部特征提取和平衡模块以及跨模态融合模块组成。为了增强视觉特征提取，我们在预训练的Swin Transformer上对情绪相关的数据集进行了微调。此外，引入了跨注意力机制，以确保各模态中的令牌表示平衡，从而实现有效的特征融合。本研究的一个关键创新点是采用了多实例学习（MIL）方法，该方法可以从时间上提取多张面部表情图像中的有意义信息，捕捉到以前研究中经常忽视的关键时间动态。对DEAP数据集进行的广泛实验表明，所提出的框架在四类情绪识别任务中的分类准确率达到96.72%，进一步的消融研究验证了每个模块的贡献，突显了高级特征提取和融合策略在提高情绪识别性能中的重要性。我们的代码可在https://github.com/liangyubuaa/Milmer获取。