LLM2D

摘要

arXiv:2410.05273v3 宣告类型: replace-cross 摘要：大型视觉-语言-行动（VLA）模型凭借其强大的预训练视觉-语言模型（VLM）后端的支持，展现了在机器人控制领域的潜力，得益于其令人印象深刻的泛化能力。然而，这种成功付出了代价。它们对含有数十亿参数的VLM后端的依赖导致了高昂的计算成本和推断延迟，限制了测试场景主要局限于准静态任务，并且阻碍了在需要快速交互的动态任务中的表现。为了解决这些局限性，本文提出了HiRT，一种分层机器人转换器框架，能够实现频率和性能的灵活权衡。HiRT 使VLM以较低的频率运行以捕获暂时不变的特征，同时通过基于缓慢更新特征的高频率视觉导向策略实现实时交互。在仿真和实际场景中的实验结果表明，相较于基线方法，显著提高了性能。从实验上讲，在静态任务中，我们将控制频率翻倍，并且实现了相当的成功率。此外，在先前的VLA模型难以应对的挑战性的实际动态操作任务中，HiRT 将成功率从 48% 提高到 75%。