LLM2D

摘要

本文介绍了 SPA，一个新颖的表征学习框架，强调了具身 AI 中 3D 空间感知的重要性。我们的方法利用可微神经渲染技术对多视图图像进行处理，赋予原始视觉 Transformer (ViT) 内在的空间理解能力。我们对具身表征学习进行了迄今为止最全面的评估，涵盖了 8 个模拟器中的 268 个任务，涉及单任务和语言条件下的多任务场景，并采用了多种策略。结果令人信服：SPA 在使用更少训练数据的情况下，始终优于 10 多种最先进的表征方法，包括专门为具身 AI、视觉中心任务和多模态应用而设计的那些方法。此外，我们进行了一系列真实世界的实验，以确认其在实际场景中的有效性。这些结果突出了 3D 空间感知对于具身表征学习的关键作用。我们最强大的模型需要超过 6000 个 GPU 小时才能训练，我们致力于开源所有代码和模型权重，以促进具身表征学习的未来研究。项目页面：https://haoyizhu.github.io/spa/.