摘要
arXiv:2503.10530v2 通知类型:替换-交叉
摘要:在本研究中,我们提出了一种使用MobileNetV4和多尺度3D MLP-Mixer基时序聚合模块的有效时空特征提取方法。MobileNetV4,通过其通用倒置瓶颈(UIB)块,作为骨干网络,从输入图像序列中提取分层特征表示,确保了计算效率和丰富的语义编码。为了捕捉时序依赖性,我们引入了一个三层MLP-Mixer模块,能够在保持结构完整性的前提下对多个空间分辨率下的特征进行处理。在ABAW第8届竞赛上的实验结果表明,我们提出的方法在情感行为分析方面具有有效性,并展示了令人振奋的性能。通过结合高效的视觉骨干网络和有结构的时间建模机制,所提出的框架在计算效率和预测准确性之间达到了平衡,使其非常适合移动和嵌入式计算环境中的实时应用。