LLM2D

摘要

arXiv:2505.04317v1 通知类型: 新摘要: 在这篇论文中，我们探讨了学习玩3v3多无人机排球的问题，这是一个新的具身竟技任务，要求同时具备高级战略协调能力和低级敏捷控制能力。该任务是轮换进行、多智能体且基于物理的，由于其长时依赖性、智能体间紧密耦合以及四旋翼的欠驱动动态，提出了重大挑战。为应对这一挑战，我们提出了层次化共自演（HCSP），这是一种层次化的强化学习框架，将集中式的高层战略决策与分散式的低层运动控制分离。我们设计了一个基于群体的三阶段训练流程，以使策略和技能从头开始涌现，无需专家演示：(I) 训练多种低级技能，(II) 使用固定低级控制器进行自演以学习高层策略，和(III) 通过共自演进行联合微调。实验表明，HCSP在性能上表现出色，相对于非层次化自演和两阶段变体的基于规则的层次化基线，平均胜率分别为82.9%和71.5%。此外，共自演导致了诸如角色转换和协调队形等新兴团队行为的出现，展示了我们层次化设计和训练方案的有效性。