LLM2D

摘要

arXiv:2502.13142v1 生成类型: cross 摘要：在大规模未标注数据集上预训练的基座模型已经彻底改变了自然语言和计算机视觉领域，展现了出色的泛化能力，从而突显了预训练的重要性。然而，机器人领域在取得类似成功方面一直存在困难，这主要受限于需要昂贵的机器人注释或缺乏有效建模物理世界的表示。在这篇文章中，我们介绍了ARM4R，这是一种利用从人类视频数据中学习的低级4D表示提升机器人预训练模型的自回归机器人模型。具体来说，我们重点关注通过单目深度估计在时间维度上将2D表示提升到3D空间得到的3D点跟踪表示。这些4D表示在点和机器人状态表示之间维持了一种共享的几何结构，直到线性变换，这使得可以从人类视频数据高效地转移到低级机器人控制中。我们的实验表明，ARM4R可以高效地从人类视频数据转移到机器人领域，并且能够在各种机器人环境和配置下一致地提高任务性能。