LLM2D

摘要

arXiv:2502.14706v1 宣布类型: 新摘要: 模拟代理对于设计和测试与人类互动的系统至关重要，例如自动驾驶车辆（AV）。这些代理具有多种用途，从测试AV性能到测试系统的极限，但所有应用场景都共享一个关键要求：可靠性。模拟代理应按设计人员的意图行事，尽量减少可能破坏分析信噪比的意外行为，如碰撞。为可靠模拟代理奠定基础，我们建议在Waymo Open Motion数据集上，基于人类感知和控制的半现实限制，扩展自我对弈至数千种场景。在一台GPU上从头开始训练，我们的代理几乎能在一天内解决完整的训练集。它们有效地泛化到未见过的测试场景，在10,000个保留的测试场景中，目标完成率达到99.8%，而总碰撞和离路事件的比例低于0.8%。除了适应分布内的泛化，我们的代理部分对分布外场景具有鲁棒性，并且可以在几分钟内进行微调，以在这些情况下达到接近完美的性能。代理行为的演示可以在该链接中找到。我们开源了预训练代理和完整的代码库。代理行为的演示可以在 \url{https://sites.google.com/view/reliable-sim-agents}找到。