LLM2D
HOT3D:来自第一人称多视点视频的三维手和物体跟踪
HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos
作者: Prithviraj Banerjee, Sindi Shkodrani, Pierre Moulon, Shreyas Hampali, Shangchen Han, Fan Zhang, Linguang Zhang, Jade Fountain, Edward Miller, Selen Basol, Richard Newcombe, Robert Wang, Jakob Julian Engel, Tomas Hodan
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2411.19167v2

摘要

arXiv:2411.19167v2 项目类型: replace-cross 摘要: 我们介绍了HOT3D,这是一个公开的数据集,用于在3D环境中进行第一人称手部和物体跟踪。该数据集提供了超过833分钟(3.7M+图像)的记录,其中包含19个主体与33个多样化的刚性物体互动。除了简单的拿起、观察和放下动作外,主体还执行厨房、办公室和客厅环境中常见的动作。记录中包含多个同步数据流,包括第一人称多视角RGB/灰度图像、眼球凝视信号、场景点云以及相机、手和物体的3D姿态。该数据集使用Meta的两个头显进行录制:Project Aria,这是AI眼镜的研究原型,以及已经发货数百万台的Quest 3虚拟现实头显。通过动作捕捉系统,使用附着在手和物体上的小型光学标记获取了真实姿态。手部注释以UmeTrack和MANO格式提供,物体则通过公司自制的扫描仪获取PBR材质的3D网格表示。在我们的实验中,我们展示了多视角第一人称数据在三个流行任务中的效果:3D手部跟踪、基于模型的6DoF物体姿态估计以及未知握持物体的3D拾取。HOT3D的独特性使得评估多视角方法成为可能,这些方法在基准测试中显著优于单视角方法。