LLM2D

摘要

本文提出了一种将基于模型的最优控制与强化学习 (RL) 相结合的控制框架，以实现灵活且稳健的腿式运动。我们的方法通过将有限时域最优控制生成的按需参考运动纳入 RL 训练过程来增强训练过程，涵盖了广泛的速度和步态。这些参考运动作为 RL 策略模仿的目标，从而发展出可靠的鲁棒控制策略。此外，通过利用捕捉全身动力学的真实模拟数据，RL 有效地克服了模型简化带来的参考运动固有局限性。我们通过一系列实验验证了框架内 RL 训练过程的鲁棒性和可控性。在这些实验中，我们的方法展示了其泛化参考运动的能力，并有效地处理了可能对简化模型构成挑战的更复杂运动任务，这得益于 RL 的灵活性。此外，我们的框架轻松支持不同尺寸机器人的控制策略训练，无需对奖励函数和超参数进行特定于机器人的调整。