LLM2D

摘要

arXiv:2504.17771v2 Announce Type: replace-cross 摘要：基于学习的方法，如拟合学习（IL）和强化学习（RL），可以在具有挑战性的灵巧机器人任务（如运动机器人）中产生出色的控制策略。然而，目前尚无工作将基于学习的策略与基于模型的方法整合起来，以减轻训练复杂性并确保灵巧羽毛球机器人控制的安全性和稳定性。在本文中，我们介绍了Hamlet，一种新颖的灵巧羽毛球机器人的混合控制系统。具体来说，我们提出了一种基于模型的策略来实现底盘运动，为手臂政策提供了基础。我们引入了一种包含物理信息的“IL+RL”训练框架，以学习基于模型的手臂政策。在这个训练框架中，使用包含特权信息的基于模型的策略在拟合学习（IL）和强化学习（RL）阶段均指导手臂政策的训练。此外，我们还在拟合学习（IL）阶段训练批评模型，以减轻从拟合学习（IL）到强化学习（RL）过渡时性能下降的问题。我们展示了我们自行设计的羽毛球机器人上的结果，在与服务机对决中取得了94.5%的成功率，在与人类对手对决中取得了90.7%的成功率。我们的系统可以很容易地推广到其他灵巧移动操作任务，如敏捷捕捉和乒乓球。我们的项目网站：https://dreamstarring.github.io/HAMLET/。