LLM2D

摘要

自主驾驶研究中的一个主要挑战是建模代理行为，这在构建用于离线评估的真实可靠模拟以及预测车流代理运动以进行车载规划等方面具有关键应用。虽然监督学习在跨越各个领域建模代理方面已取得成功，但这些模型在测试时可能会出现分布偏移。在这项工作中，我们通过使用强化学习对行为模型进行闭环微调来提高代理行为的可靠性。我们的方法展示了改进的整体性能，以及改进的目标指标，例如在 Waymo Open Sim Agents 挑战赛上的碰撞率。此外，我们还提出了一种新颖的策略评估基准，以直接评估模拟代理衡量自动驾驶规划器质量的能力，并证明了我们的方法在这个新基准上的有效性。