LLM2D
HiRT:利用分层机器人Transformer增强机器人控制
HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers
作者: Jianke Zhang, Yanjiang Guo, Xiaoyu Chen, Yen-Jen Wang, Yucheng Hu, Chengming Shi, Jianyu Chen
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05273v1

摘要

大型视觉-语言-动作 (VLA) 模型利用强大的预训练视觉-语言模型 (VLMs) 后端,在机器人控制方面展现出巨大潜力,得益于其出色的泛化能力。然而,这种成功也伴随着代价。它们对拥有数十亿参数的 VLM 后端的依赖导致了高昂的计算成本和推理延迟,将测试场景限制在主要为准静态任务,并阻碍了在需要快速交互的动态任务中的性能。为了解决这些限制,本文提出了 HiRT,一种分层机器人 Transformer 框架,它能够灵活地权衡频率和性能。HiRT 使 VLMs 以低频率运行以捕获暂时不变的特征,同时通过由缓慢更新的特征引导的高频视觉策略实现实时交互。仿真和真实世界环境中的实验结果表明,与基线方法相比,HiRT 取得了显著改进。在静态任务中,我们使控制频率翻倍,并取得了相当的成功率。此外,在以前 VLA 模型难以处理的新型真实世界动态操作任务中,HiRT 将成功率从 48% 提高到 75%。