LLM2D

摘要

眼动追踪是扩展现实 (XR) 中基于注视交互的关键技术，但传统的帧式系统难以满足 XR 对高精度、低延迟和低功耗的需求。事件相机因其高时间分辨率和低功耗而成为一种很有前景的替代方案。本文提出了一种端到端的称为 FACET（快速准确的基于事件的眼动追踪）的神经网络，该网络直接从事件数据中输出瞳孔椭圆参数，并针对实时 XR 应用进行了优化。椭圆输出可以直接用于后续的基于椭圆的瞳孔追踪器。我们通过扩展注释数据并将原始掩码标签转换为基于椭圆的注释来增强 EV-Eye 数据集，从而训练模型。此外，采用了一种新的三角函数损失来解决角度不连续性问题，并提出了一种快速因果事件体积事件表示方法。在增强的 EV-Eye 测试集上，FACET 达到了 0.20 像素的平均瞳孔中心误差，推理时间为 0.53 毫秒，与现有技术 EV-Eye 相比，像素误差和推理时间分别降低了 1.6 倍和 1.8 倍，同时参数和算术运算量分别减少了 4.4 倍和 11.7 倍。代码可在 https://github.com/DeanJY/FACET 获取。