LLM2D

摘要

先前用于从单幅图像重建手持物体的工作是在配有3D形状的图像上训练模型。这种数据在现实世界中大规模收集具有挑战性。因此，当面对野外环境中的新颖物体时，这些方法的泛化效果不佳。虽然3D监督是一个主要瓶颈，但有大量的a)展示手-物体交互的野外原始视频数据和b)合成的3D形状集合。在本文中，我们提出了利用这些来源的3D监督来扩大学习手持物体重建模型的模块。具体而言，我们从视频中提取多视图2D掩码监督，并从形状集合中提取3D形状先验。我们使用这些间接的3D线索来训练占用网络，以预测从单一RGB图像中物体的3D形状。我们在具有挑战性的物体泛化设置中的野外MOW数据集上的实验显示，与在现有数据集上使用3D监督训练的模型相比，相对改进了11.6%。