摘要
本文介绍了 SPA,一个新颖的表征学习框架,强调了具身 AI 中 3D 空间感知的重要性。我们的方法利用可微神经渲染技术对多视图图像进行处理,赋予了普通视觉 Transformer (ViT) 本质上的空间理解能力。我们提供了迄今为止对具身表征学习最全面的评估,涵盖了 8 个模拟器中 268 个任务,包括单任务和语言条件多任务场景中的各种策略。结果令人信服:SPA 始终优于 10 多种最先进的表征方法,包括专门为具身 AI、视觉中心任务和多模态应用设计的那些方法,同时使用更少的训练数据。此外,我们进行了一系列真实世界实验,以确认其在实际场景中的有效性。这些结果突出了 3D 空间感知对于具身表征学习的关键作用。我们最强大的模型需要超过 6000 个 GPU 小时进行训练,我们承诺开源所有代码和模型权重,以促进具身表征学习的未来研究。项目页面:https://haoyizhu.github.io/spa/。