LLM2D

摘要

多智能体学习算法在各种游戏中成功地产生了超越人类的规划能力，但在部署的多智能体规划器设计中影响有限。将这些技术应用于多智能体规划的一个关键瓶颈是，它们需要数十亿步的经验。为了实现大规模多智能体规划的研究，我们提出了 GPUDrive，这是一个基于 Madrona 游戏引擎的 GPU 加速多智能体模拟器，它每秒可以生成超过一百万个模拟步骤。观察、奖励和动力学函数直接用 C++ 编写，允许用户定义复杂的异构代理行为，这些行为被降低到高性能 CUDA。我们表明，使用 GPUDrive，我们可以在 Waymo 开放运动数据集中的多个场景中有效地训练强化学习代理，在几分钟内为单个场景生成高效的目标到达代理，并在数小时内使代理能够导航数千个场景。包含预训练代理的代码库可在 \url{https://github.com/Emerge-Lab/gpudrive} 获取。