摘要
本文介绍了 SPA,一个新颖的表征学习框架,强调了具身 AI 中 3D 空间感知的重要性。我们的方法利用可微神经渲染技术对多视图图像进行处理,赋予原始视觉 Transformer (ViT) 内在的空间理解能力。我们对具身表征学习进行了迄今为止最全面的评估,涵盖了 8 个模拟器中的 268 个任务,涉及单任务和语言条件下的多任务场景,并采用了多种策略。结果令人信服:SPA 在使用更少训练数据的情况下,始终优于 10 多种最先进的表征方法,包括专门为具身 AI、视觉中心任务和多模态应用而设计的那些方法。此外,我们进行了一系列真实世界的实验,以确认其在实际场景中的有效性。这些结果突出了 3D 空间感知对于具身表征学习的关键作用。我们最强大的模型需要超过 6000 个 GPU 小时才能训练,我们致力于开源所有代码和模型权重,以促进具身表征学习的未来研究。项目页面:https://haoyizhu.github.io/spa/.