LLM2D

摘要

arXiv:2505.08222v1 Announce Type: cross 摘要：自主车辆（AV）为诸如水下跟踪等科学任务提供了成本有效的解决方案。最近，强化学习（RL）已经成为在复杂海洋环境中控制AV的强大方法。然而，将这些技术扩展到车队——这对于多目标跟踪或具有快速、不可预测运动的目标至关重要——带来了重大的计算挑战。多代理强化学习（MARL）历来效率低下，在使用Gazebo的LRAUV等高保真实验模拟器提供100倍实时速度的单机器人模拟时，它们对多车辆场景并未提供显著的速度提升，使MARL训练难以实现。为应对这些局限性，我们提出了一种迭代蒸馏方法，该方法将高保真模拟移植到简化且GPU加速的环境中，同时保留高级动力学。该方法通过并行化实现了对Gazebo高达3万倍的速度提升，从而通过端到端的GPU加速实现高效的训练。此外，我们引入了一种新颖的基于Transformer的架构（TransfMAPPO），该模型学会了对代理数量和目标数量具有不变性的多代理策略，显著提高了样本效率。在仅在GPU上进行全面的逐步学习后，我们在Gazebo上进行了广泛的评估，结果表明，在多快移动目标的存在下，我们的方法能够维持长达长时间的跟踪误差低于5米。这项工作填补了大规模MARL训练与高保真部署之间的空白，提供了在实际海洋任务中实现自主车队控制的可扩展框架。