摘要
arXiv:2505.08222v1 Announce Type: cross
摘要:自主车辆(AV)为诸如水下跟踪等科学任务提供了成本有效的解决方案。最近,强化学习(RL)已经成为在复杂海洋环境中控制AV的强大方法。然而,将这些技术扩展到车队——这对于多目标跟踪或具有快速、不可预测运动的目标至关重要——带来了重大的计算挑战。多代理强化学习(MARL)历来效率低下,在使用Gazebo的LRAUV等高保真实验模拟器提供100倍实时速度的单机器人模拟时,它们对多车辆场景并未提供显著的速度提升,使MARL训练难以实现。为应对这些局限性,我们提出了一种迭代蒸馏方法,该方法将高保真模拟移植到简化且GPU加速的环境中,同时保留高级动力学。该方法通过并行化实现了对Gazebo高达3万倍的速度提升,从而通过端到端的GPU加速实现高效的训练。此外,我们引入了一种新颖的基于Transformer的架构(TransfMAPPO),该模型学会了对代理数量和目标数量具有不变性的多代理策略,显著提高了样本效率。在仅在GPU上进行全面的逐步学习后,我们在Gazebo上进行了广泛的评估,结果表明,在多快移动目标的存在下,我们的方法能够维持长达长时间的跟踪误差低于5米。这项工作填补了大规模MARL训练与高保真部署之间的空白,提供了在实际海洋任务中实现自主车队控制的可扩展框架。