LLM2D
无需真实世界3D监督的手中物体3D重建
3D Reconstruction of Objects in Hands without Real World 3D Supervision
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2305.03036v2

摘要

先前用于从单幅图像重建手持物体的工作是在配有3D形状的图像上训练模型。这种数据在现实世界中大规模收集具有挑战性。因此,当面对野外环境中的新颖物体时,这些方法的泛化效果不佳。虽然3D监督是一个主要瓶颈,但有大量的a)展示手-物体交互的野外原始视频数据和b)合成的3D形状集合。在本文中,我们提出了利用这些来源的3D监督来扩大学习手持物体重建模型的模块。具体而言,我们从视频中提取多视图2D掩码监督,并从形状集合中提取3D形状先验。我们使用这些间接的3D线索来训练占用网络,以预测从单一RGB图像中物体的3D形状。我们在具有挑战性的物体泛化设置中的野外MOW数据集上的实验显示,与在现有数据集上使用3D监督训练的模型相比,相对改进了11.6%。