摘要
机器人学中的一大挑战是设计鲁棒的策略,使机器人在现实世界中能够执行复杂且灵活的行为。一方面,我们有无模型强化学习 (MFRL),它具有极强的灵活性和通用性,但通常会导致策略脆弱。另一方面,模型预测控制 (MPC) 在每个时间步长不断地重新规划,以保持对扰动和模型误差的鲁棒性。然而,尽管 MPC 在现实世界中取得了成功,但它往往无法达到最佳策略。这是由于模型质量、短期规划范围导致的短视行为以及计算约束导致的近似。即使有了完美的模型和足够的计算能力,MPC 也可能陷入不良的局部最优解,严重依赖于优化算法的质量。为此,我们提出了深度模型预测优化 (DMPO),它通过经验直接学习 MPC 优化算法的内循环,专门针对控制问题的需求。我们在真实的四旋翼敏捷轨迹跟踪任务上评估了 DMPO,它在给定计算预算的情况下,提高了基线 MPC 算法的性能。它可以使用更少的样本比最佳 MPC 算法性能提高高达 27%,并比使用 MFRL 训练的端到端策略性能提高 19%。此外,由于 DMPO 需要更少的样本,因此它还可以使用少 4.3 倍的内存来实现这些优势。当我们将四旋翼暴露在带有附着阻力板的湍流风场中时,DMPO 可以零样本适应,同时仍然优于所有基线。更多结果可以在 https://tinyurl.com/mr2ywmnw 中找到。