LLM2D
基于模型的强化学习在未 동化的系统全局控制学习
Learning global control of underactuated systems with Model-Based Reinforcement Learning
作者: Niccol\`o Turcato, Marco Cal\`i, Alberto Dalla Libera, Giulio Giacomuzzo, Ruggero Carli, Diego Romeres
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.06721v1

摘要

arXiv:2504.06721v1 Announce Type: cross 摘要:本文简要描述了我们 propose 的解决方案,用于在 2025 年 ICRA 会议举办的第三次“RealAIGym AI 运动会”竞赛。我们采用了蒙特卡洛概率推理用于学习控制 (MC-PILCO) 算法,这是一种已被认可在多种低维度机器人任务中表现出色的数据高效 MBRL 算法,包括双杆、球和平板以及 Furuta 摆系统。MC-PILCO 通过交互数据优化系统动力学模型,从而使通过模拟而不是直接通过系统数据优化来实现策略改进成为可能。在物理系统中,这种方法已被证明非常有效,其数据效率超过了许多无模型(MF)的替代方案。值得注意的是,MC-PILCO 在此竞赛的前两版中已经获胜,展示了其在模拟和真实世界环境中的鲁棒性。除了简要回顾算法之外,我们还讨论了在这种任务中 MC-PILCO 实现的关键方面:学习摆DubBot 和 acrobot 系统的全局策略。