LLM2D

摘要

arXiv:2411.19167v2 项目类型: replace-cross 摘要: 我们介绍了HOT3D，这是一个公开的数据集，用于在3D环境中进行第一人称手部和物体跟踪。该数据集提供了超过833分钟（3.7M+图像）的记录，其中包含19个主体与33个多样化的刚性物体互动。除了简单的拿起、观察和放下动作外，主体还执行厨房、办公室和客厅环境中常见的动作。记录中包含多个同步数据流，包括第一人称多视角RGB/灰度图像、眼球凝视信号、场景点云以及相机、手和物体的3D姿态。该数据集使用Meta的两个头显进行录制：Project Aria，这是AI眼镜的研究原型，以及已经发货数百万台的Quest 3虚拟现实头显。通过动作捕捉系统，使用附着在手和物体上的小型光学标记获取了真实姿态。手部注释以UmeTrack和MANO格式提供，物体则通过公司自制的扫描仪获取PBR材质的3D网格表示。在我们的实验中，我们展示了多视角第一人称数据在三个流行任务中的效果：3D手部跟踪、基于模型的6DoF物体姿态估计以及未知握持物体的3D拾取。HOT3D的独特性使得评估多视角方法成为可能，这些方法在基准测试中显著优于单视角方法。