LLM2D

摘要

arXiv:2503.12623v2 宣告类型: 交叉替换摘要：在野生环境中进行动态情绪识别仍然具有挑战性，因为情绪表达具有短暂性，多模态线索的时间对齐也不一致。传统方法预测正负性和唤醒水平，但往往忽略了这两个维度之间的固有关联。本文提出的多模态注意力值唤醒情绪网络（MAVEN）通过双向跨模态注意力机制整合了视觉、听觉和文本模态。MAVEN 使用模态特定编码器从同步视频帧、音频片段和转录中提取特征，并根据 Russell 的环形模型以极坐标预测情绪。使用 MAVEN 对 Aff-Wild2 数据集进行评估，其相关性相关系数（CCC）为 0.3061，超过了以 CCC 为 0.22 的 ResNet-50 基线模型。多阶段架构捕捉到会话视频中情绪表达的微妙和短暂性，并在实际情况下提高了情绪识别能力。代码可在以下地址获取：https://github.com/Vrushank-Ahire/MAVEN_8th_ABAW