摘要
多智能体学习算法在各种游戏中成功地产生了超越人类的规划能力,但在部署的多智能体规划器设计中影响有限。将这些技术应用于多智能体规划的一个关键瓶颈是,它们需要数十亿步的经验。为了实现大规模多智能体规划的研究,我们提出了 GPUDrive,这是一个基于 Madrona 游戏引擎的 GPU 加速多智能体模拟器,它每秒可以生成超过一百万个模拟步骤。观察、奖励和动力学函数直接用 C++ 编写,允许用户定义复杂的异构代理行为,这些行为被降低到高性能 CUDA。我们表明,使用 GPUDrive,我们可以在 Waymo 开放运动数据集中的多个场景中有效地训练强化学习代理,在几分钟内为单个场景生成高效的目标到达代理,并在数小时内使代理能够导航数千个场景。包含预训练代理的代码库可在 \url{https://github.com/Emerge-Lab/gpudrive} 获取。