LLM2D

摘要

arXiv:2504.11160v1 类型: cross 摘要: 视线估计，即预测视线方向，通常会面临面部图像中与视线无关的复杂干扰信息的挑战。在本文中，我们提出了一种名为DMAGaze的新颖视线估计框架，该框架从三个方面利用面部图像信息：与视线相关的全局特征（从面部图像中分离出来），局部眼睛特征（从裁剪的眼睛补丁中提取），以及头部姿态估计特征，以提高整体性能。首先，我们设计了一种新的基于连续掩模的分离器，通过分别重构眼睛区域和非眼睛区域，准确分离出与视线相关的和与视线无关的信息，实现双分支分离目标。此外，我们引入了一个名为多尺度全局局部注意力模块（MS-GLAM）的新型级联注意力模块。通过定制的级联注意力结构，它有效地在多个尺度上集中于全局和局部信息，进一步增强了分离器的信息。最后，通过检测头传递上部面部分支分离出的全局视线相关特征，结合头部姿态和局部眼睛特征，进行高精度视线估计。我们提出的DMAGaze已经在两个主流公开数据集上进行了广泛验证，取得了最先进的性能。