LLM2D

摘要

arXiv:2505.06111v2 宣告类型: replace-cross 摘要：通用机器人应该在各种环境中有效地执行任务。然而，现有的大多数方法严重依赖于扩展带有动作注释的数据来增强其能力。因此，它们通常仅限于单个物理规格，并且在不同实体和环境之间学习可转移的知识方面遇到了困难。为应对这些限制，我们提出了UniVLA，这是一种新的框架，用于学习跨实体的 vision-language-action (VLA) 策略。我们的关键创新在于从视频中使用潜在动作模型推导出以任务为中心的动作表示，这使我们能够利用广泛存在各种实体和视角下的数据。为了减轻与任务无关的动力学的影响，我们引入了语言指令，并在DINO特征空间内建立了潜在动作模型。从互联网规模的视频中学习到的通用策略，可以通过高效的潜在动作解码部署到各种机器人上。我们在多个操作和导航基准测试以及实际机器人部署中取得了最先进的成果。UniVLA 在预训练计算量不到1/20 和下游数据量不到1/10 的情况下，实现了优于OpenVLA 的性能。通过引入异质数据，甚至是包含人类视频的数据，持续观察到性能的提升。结果表明，UniVLA 有可能促进可扩展和高效的机器人策略学习。