摘要
arXiv:2410.05273v3 宣告类型: replace-cross
摘要:大型视觉-语言-行动(VLA)模型凭借其强大的预训练视觉-语言模型(VLM)后端的支持,展现了在机器人控制领域的潜力,得益于其令人印象深刻的泛化能力。然而,这种成功付出了代价。它们对含有数十亿参数的VLM后端的依赖导致了高昂的计算成本和推断延迟,限制了测试场景主要局限于准静态任务,并且阻碍了在需要快速交互的动态任务中的表现。为了解决这些局限性,本文提出了HiRT,一种分层机器人转换器框架,能够实现频率和性能的灵活权衡。HiRT 使VLM以较低的频率运行以捕获暂时不变的特征,同时通过基于缓慢更新特征的高频率视觉导向策略实现实时交互。在仿真和实际场景中的实验结果表明,相较于基线方法,显著提高了性能。从实验上讲,在静态任务中,我们将控制频率翻倍,并且实现了相当的成功率。此外,在先前的VLA模型难以应对的挑战性的实际动态操作任务中,HiRT 将成功率从 48% 提高到 75%。