LLM2D

摘要

arXiv:2504.14709v1 宣告类型: cross 摘要: 基于机器学习（ML）的规划器近年来引起广泛关注。它们在传统基于优化的规划算法中提供了许多优势。这些优势包括需要手动选择的参数更少和开发速度更快。在基于机器学习的规划中，模仿学习（IL）是一种常见的算法。它主要直接从监督轨迹数据中学习驾驶策略。尽管IL在许多开环基准测试中表现出色，但仍然很难确定学习到的策略是否真正理解了基本的驾驶原则，而不仅仅是从ego车辆的初始状态外推。一些研究已经识别出这一局限性，并提出了相应的解决方案。然而，这些方法通常使用原始数据集进行评估。在这些数据集中，未来的轨迹很大程度上依赖于初始条件。此外，IL往往会过度适应最常见的场景，难以泛化到罕见或未见过的情况。为了解决这些挑战，本工作提出：1）一种新颖的闭环仿真器，支持模仿学习和强化学习，2）一个从Waymo Open Dataset派生出的因果基准，以严格评估拷贝猫问题的影响，3）一个新的框架，将模仿学习和强化学习结合起来以克服纯模仿方法的局限性。此工作的代码将在不久后发布。