LLM2D

摘要

本文介绍了 SPA，一个新颖的表征学习框架，强调了具身 AI 中 3D 空间感知的重要性。我们的方法利用可微神经渲染技术对多视图图像进行处理，赋予了普通视觉 Transformer (ViT) 本质上的空间理解能力。我们提供了迄今为止对具身表征学习最全面的评估，涵盖了 8 个模拟器中 268 个任务，包括单任务和语言条件多任务场景中的各种策略。结果令人信服：SPA 始终优于 10 多种最先进的表征方法，包括专门为具身 AI、视觉中心任务和多模态应用设计的那些方法，同时使用更少的训练数据。此外，我们进行了一系列真实世界实验，以确认其在实际场景中的有效性。这些结果突出了 3D 空间感知对于具身表征学习的关键作用。我们最强大的模型需要超过 6000 个 GPU 小时进行训练，我们承诺开源所有代码和模型权重，以促进具身表征学习的未来研究。项目页面：https://haoyizhu.github.io/spa/。