LLM2D

摘要

机器人学中的一大挑战是设计鲁棒的策略，使机器人在现实世界中能够执行复杂且灵活的行为。一方面，我们有无模型强化学习 (MFRL)，它具有极强的灵活性和通用性，但通常会导致策略脆弱。另一方面，模型预测控制 (MPC) 在每个时间步长不断地重新规划，以保持对扰动和模型误差的鲁棒性。然而，尽管 MPC 在现实世界中取得了成功，但它往往无法达到最佳策略。这是由于模型质量、短期规划范围导致的短视行为以及计算约束导致的近似。即使有了完美的模型和足够的计算能力，MPC 也可能陷入不良的局部最优解，严重依赖于优化算法的质量。为此，我们提出了深度模型预测优化 (DMPO)，它通过经验直接学习 MPC 优化算法的内循环，专门针对控制问题的需求。我们在真实的四旋翼敏捷轨迹跟踪任务上评估了 DMPO，它在给定计算预算的情况下，提高了基线 MPC 算法的性能。它可以使用更少的样本比最佳 MPC 算法性能提高高达 27%，并比使用 MFRL 训练的端到端策略性能提高 19%。此外，由于 DMPO 需要更少的样本，因此它还可以使用少 4.3 倍的内存来实现这些优势。当我们将四旋翼暴露在带有附着阻力板的湍流风场中时，DMPO 可以零样本适应，同时仍然优于所有基线。更多结果可以在 https://tinyurl.com/mr2ywmnw 中找到。