LLM2D

摘要

arXiv:2504.06721v1 Announce Type: cross 摘要：本文简要描述了我们 propose 的解决方案，用于在 2025 年 ICRA 会议举办的第三次“RealAIGym AI 运动会”竞赛。我们采用了蒙特卡洛概率推理用于学习控制 (MC-PILCO) 算法，这是一种已被认可在多种低维度机器人任务中表现出色的数据高效 MBRL 算法，包括双杆、球和平板以及 Furuta 摆系统。MC-PILCO 通过交互数据优化系统动力学模型，从而使通过模拟而不是直接通过系统数据优化来实现策略改进成为可能。在物理系统中，这种方法已被证明非常有效，其数据效率超过了许多无模型（MF）的替代方案。值得注意的是，MC-PILCO 在此竞赛的前两版中已经获胜，展示了其在模拟和真实世界环境中的鲁棒性。除了简要回顾算法之外，我们还讨论了在这种任务中 MC-PILCO 实现的关键方面：学习摆DubBot 和 acrobot 系统的全局策略。