LLM2D

摘要

大型视觉-语言-动作 (VLA) 模型利用强大的预训练视觉-语言模型 (VLMs) 后端，在机器人控制方面展现出巨大潜力，得益于其出色的泛化能力。然而，这种成功也伴随着代价。它们对拥有数十亿参数的 VLM 后端的依赖导致了高昂的计算成本和推理延迟，将测试场景限制在主要为准静态任务，并阻碍了在需要快速交互的动态任务中的性能。为了解决这些限制，本文提出了 HiRT，一种分层机器人 Transformer 框架，它能够灵活地权衡频率和性能。HiRT 使 VLMs 以低频率运行以捕获暂时不变的特征，同时通过由缓慢更新的特征引导的高频视觉策略实现实时交互。仿真和真实世界环境中的实验结果表明，与基线方法相比，HiRT 取得了显著改进。在静态任务中，我们使控制频率翻倍，并取得了相当的成功率。此外，在以前 VLA 模型难以处理的新型真实世界动态操作任务中，HiRT 将成功率从 48% 提高到 75%。