摘要
arXiv:2411.19167v2 项目类型: replace-cross
摘要: 我们介绍了HOT3D,这是一个公开的数据集,用于在3D环境中进行第一人称手部和物体跟踪。该数据集提供了超过833分钟(3.7M+图像)的记录,其中包含19个主体与33个多样化的刚性物体互动。除了简单的拿起、观察和放下动作外,主体还执行厨房、办公室和客厅环境中常见的动作。记录中包含多个同步数据流,包括第一人称多视角RGB/灰度图像、眼球凝视信号、场景点云以及相机、手和物体的3D姿态。该数据集使用Meta的两个头显进行录制:Project Aria,这是AI眼镜的研究原型,以及已经发货数百万台的Quest 3虚拟现实头显。通过动作捕捉系统,使用附着在手和物体上的小型光学标记获取了真实姿态。手部注释以UmeTrack和MANO格式提供,物体则通过公司自制的扫描仪获取PBR材质的3D网格表示。在我们的实验中,我们展示了多视角第一人称数据在三个流行任务中的效果:3D手部跟踪、基于模型的6DoF物体姿态估计以及未知握持物体的3D拾取。HOT3D的独特性使得评估多视角方法成为可能,这些方法在基准测试中显著优于单视角方法。