LLM2D
通过扩展自我对弈构建可靠的模拟驾驶代理
Building reliable sim driving agents by scaling self-play
作者: Daphne Cornelisse, Aarav Pandya, Kevin Joseph, Joseph Su\'arez, Eugene Vinitsky
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14706v1

摘要

arXiv:2502.14706v1 宣布类型: 新 摘要: 模拟代理对于设计和测试与人类互动的系统至关重要,例如自动驾驶车辆(AV)。这些代理具有多种用途,从测试AV性能到测试系统的极限,但所有应用场景都共享一个关键要求:可靠性。模拟代理应按设计人员的意图行事,尽量减少可能破坏分析信噪比的意外行为,如碰撞。为可靠模拟代理奠定基础,我们建议在Waymo Open Motion数据集上,基于人类感知和控制的半现实限制,扩展自我对弈至数千种场景。在一台GPU上从头开始训练,我们的代理几乎能在一天内解决完整的训练集。它们有效地泛化到未见过的测试场景,在10,000个保留的测试场景中,目标完成率达到99.8%,而总碰撞和离路事件的比例低于0.8%。除了适应分布内的泛化,我们的代理部分对分布外场景具有鲁棒性,并且可以在几分钟内进行微调,以在这些情况下达到接近完美的性能。代理行为的演示可以在该链接中找到。我们开源了预训练代理和完整的代码库。代理行为的演示可以在 \url{https://sites.google.com/view/reliable-sim-agents}找到。