摘要
我们探索了 SAM 2,一个视觉基础模型,在推动注视估计和眼动追踪技术方面的变革潜力。通过显著减少标注时间,降低部署的难度,以及提高分割精度,SAM 2 解决了许多研究人员和从业者面临的关键挑战。利用其零样本分割能力,只需对每个视频进行一次点击即可,我们在超过 1400 万张来自各种数据集的眼部图像上对 SAM 2 进行了测试,包括虚拟现实设置和使用可穿戴眼动追踪器记录的全球最大统一数据集。值得注意的是,在瞳孔分割任务中,SAM 2 的性能与专门针对眼部图像训练的领域特定模型相匹配,在没有微调的情况下,平均交并比 (mIoU) 得分高达 93%。此外,我们还提供了这些广泛使用的数据集的代码和分割掩码,以促进进一步的研究。