摘要
arXiv:2503.10603v3 宣布类型: replace-cross
摘要:情感模仿强度(EMI)估计在理解和人类社会行为以及推进人机交互方面发挥着关键作用。核心挑战在于动态相关性建模和多模态时间信号的稳健融合。为了应对现有方法的限制——跨模态协同效应利用不足、对噪声敏感以及受限的精细对齐能力——本文提出了一种双阶段跨模态对齐框架。第一阶段基于CLIP架构开发了视觉-文本和音频-文本对比学习网络,通过模态解耦预训练初步实现特征空间对齐。第二阶段引入了时间感知动态融合模块,该模块结合了时序卷积网络(TCN)和门控双向LSTM,分别捕捉面部表情的宏观演变模式和声学特征的局部动态。一种新颖的质量导向融合策略进一步允许在遮挡和噪声条件下对模态进行可微权重分配。在Hume-Vidmimic2数据集上的实验结果显示,在验证集上六种情绪维度的平均皮尔森相关系数为0.51,性能优越。值得注意的是,我们的方法在测试集上达到了0.68,获得了第8届ABAW(野外情绪行为分析)竞赛EMI挑战轨道的亚军,为开放环境中的精细情绪分析提供了一种新的途径。