LLM2D

摘要

arXiv:2410.10646v2 宣告类型: replace-cross 摘要: 机器人如何安全地导航避开具有复杂运动模式的人群？仿真的深度强化学习（DRL）在一定程度上是有希望的，但之前的许多工作依赖的模拟器未能捕捉到真实人类运动的细微之处。因此，我们提出了深度残差模型预测控制（DR-MPC），以使机器人能够快速且安全地从真实人群导航数据中进行DRL。通过将MPC与无模型的DRL结合，DR-MPC克服了DRL对大量数据要求和初始不安全行为的挑战。DR-MPC以基于MPC的路径跟踪初始化，并逐渐学会更有效地与人类交互。为了进一步加速学习，一个安全性组件估计出分布外状态，并引导机器人避免可能的碰撞。在仿真中，我们展示了DR-MPC在性能上显著优于之前的工作，包括传统的DRL和残差DRL模型。硬件实验显示，我们的方法仅使用不到4小时的训练数据，就能成功使机器人在多种拥堵情况下导航，且错误较少。