LLM2D

摘要

arXiv:2505.06111v1 公告类型：交叉摘要：通用机器人应该能够在各种环境中有效执行任务。然而，现有的大多数方法严重依赖于扩展带有动作注释的数据来增强其能力。因此，它们通常局限于单一的物理规范，并难以在不同的本体和环境中学习可转移的知识。为解决这些限制，我们提出了一种新的框架 UniVLA，用于学习跨本体的视觉-语言-动作（VLA）策略。我们的关键创新在于从视频中通过潜在动作模型推导出以任务为中心的动作表示，这使我们能够利用广泛范围的本体和视角的数据。为了减轻与任务无关的动力学效应，我们在 DINO 特征空间内引入语言指令并建立了潜在动作模型。由于从互联网规模的视频中学习得到的一般性策略可以通过高效的潜在动作解码部署到各种机器人中。我们在多个操控和导航基准测试以及实际机器人部署中取得了最先进的结果。与 OpenVLA 相比，UniVLA 在预训练计算量不到 1/20 和下游数据量不到 1/10 的情况下实现了更好的性能。随着异构数据的不断加入，包括人类视频，训练管道中的持续性能改进得到了观察。这些结果凸显了 UniVLA 在促进可扩展和高效机器人策略学习方面的潜力。