摘要
arXiv:2503.12623v2 宣告类型: 交叉替换
摘要:在野生环境中进行动态情绪识别仍然具有挑战性,因为情绪表达具有短暂性,多模态线索的时间对齐也不一致。传统方法预测正负性和唤醒水平,但往往忽略了这两个维度之间的固有关联。本文提出的多模态注意力值唤醒情绪网络(MAVEN)通过双向跨模态注意力机制整合了视觉、听觉和文本模态。MAVEN 使用模态特定编码器从同步视频帧、音频片段和转录中提取特征,并根据 Russell 的环形模型以极坐标预测情绪。使用 MAVEN 对 Aff-Wild2 数据集进行评估,其相关性相关系数(CCC)为 0.3061,超过了以 CCC 为 0.22 的 ResNet-50 基线模型。多阶段架构捕捉到会话视频中情绪表达的微妙和短暂性,并在实际情况下提高了情绪识别能力。代码可在以下地址获取:https://github.com/Vrushank-Ahire/MAVEN_8th_ABAW