LLM2D
DMAGaze:基于特征解耦和多尺度注意力的眼球估计
DMAGaze: Gaze Estimation Based on Feature Disentanglement and Multi-Scale Attention
作者: Haohan Chen, Hongjia Liu, Shiyong Lan, Wenwu Wang, Yixin Qiao, Yao Li, Guonan Deng
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.11160v1

摘要

arXiv:2504.11160v1 类型: cross 摘要: 视线估计,即预测视线方向,通常会面临面部图像中与视线无关的复杂干扰信息的挑战。在本文中,我们提出了一种名为DMAGaze的新颖视线估计框架,该框架从三个方面利用面部图像信息:与视线相关的全局特征(从面部图像中分离出来),局部眼睛特征(从裁剪的眼睛补丁中提取),以及头部姿态估计特征,以提高整体性能。首先,我们设计了一种新的基于连续掩模的分离器,通过分别重构眼睛区域和非眼睛区域,准确分离出与视线相关的和与视线无关的信息,实现双分支分离目标。此外,我们引入了一个名为多尺度全局局部注意力模块(MS-GLAM)的新型级联注意力模块。通过定制的级联注意力结构,它有效地在多个尺度上集中于全局和局部信息,进一步增强了分离器的信息。最后,通过检测头传递上部面部分支分离出的全局视线相关特征,结合头部姿态和局部眼睛特征,进行高精度视线估计。我们提出的DMAGaze已经在两个主流公开数据集上进行了广泛验证,取得了最先进的性能。