LLM2D
通过分层共自我博弈强化学习掌握多无人机排球技能
Mastering Multi-Drone Volleyball through Hierarchical Co-Self-Play Reinforcement Learning
作者: Ruize Zhang, Sirui Xiang, Zelai Xu, Feng Gao, Shilong Ji, Wenhao Tang, Wenbo Ding, Chao Yu, Yu Wang
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.04317v1

摘要

arXiv:2505.04317v1 通知类型: 新 摘要: 在这篇论文中,我们探讨了学习玩3v3多无人机排球的问题,这是一个新的具身竟技任务,要求同时具备高级战略协调能力和低级敏捷控制能力。该任务是轮换进行、多智能体且基于物理的,由于其长时依赖性、智能体间紧密耦合以及四旋翼的欠驱动动态,提出了重大挑战。为应对这一挑战,我们提出了层次化共自演(HCSP),这是一种层次化的强化学习框架,将集中式的高层战略决策与分散式的低层运动控制分离。我们设计了一个基于群体的三阶段训练流程,以使策略和技能从头开始涌现,无需专家演示:(I) 训练多种低级技能,(II) 使用固定低级控制器进行自演以学习高层策略,和(III) 通过共自演进行联合微调。实验表明,HCSP在性能上表现出色,相对于非层次化自演和两阶段变体的基于规则的层次化基线,平均胜率分别为82.9%和71.5%。此外,共自演导致了诸如角色转换和协调队形等新兴团队行为的出现,展示了我们层次化设计和训练方案的有效性。