摘要
arXiv:2408.01584v3 公告类型: 替换
摘要:多智能体学习算法在各种游戏中产生了超人类级别的规划,但在部署的多智能体规划设计方面影响有限。将这些技术应用于多智能体规划的关键瓶颈在于,它们需要经历数亿步的经验。为了在大规模上研究多智能体规划,我们提出了GPUDrive。GPUDrive是一个基于Madrona游戏引擎的GPU加速多智能体模拟器,能够每秒生成超过一百万个模拟步骤。观察、奖励和动力学函数直接用C++编写,允许用户定义复杂且异构的智能体行为,这些行为会被降低到高性能的CUDA。尽管进行了这些低级优化,GPUDrive依然完全通过Python访问,提供了一个无缝且高效的多智能体闭环模拟工作流程。使用GPUDrive,我们在Waymo开放运动数据集上训练强化学习智能体,几分钟内就能实现高效的目标达成,并在数小时内扩展到数千个场景。我们开源了代码和预训练智能体,地址为 https://github.com/Emerge-Lab/gpudrive。