摘要
arXiv:2502.03349v1 宣告类型:交叉
摘要:自我对弈在两人游戏和多人游戏中推动了突破性进展。在这里,我们展示了自我对弈在另一个领域的惊人有效性。我们展示了在前所未有的规模下——相当于16亿公里的驾驶路程——真实的和自然化的驾驶行为完全通过模拟中的自我对弈生成。这得益于一种名为Gigaflow的批处理模拟器,该模拟器能够在单个8-GPU节点上每小时合成和训练42年的主观驾驶经验。由此产生的策略在三个独立的自动驾驶基准测试中达到了最先进的性能。在测试中,当评估记录的现实世界场景并与真人驾驶者共存时,该策略表现优于之前的最先进的技术,而训练过程中从未见过人类数据。当评估人类参考时,该策略显得真实,并且展现了前所未有的鲁棒性,在模拟中平均连续驾驶17.5年才会发生一次意外。