摘要
arXiv:2504.14709v1 宣告类型: cross
摘要: 基于机器学习(ML)的规划器近年来引起广泛关注。它们在传统基于优化的规划算法中提供了许多优势。这些优势包括需要手动选择的参数更少和开发速度更快。在基于机器学习的规划中,模仿学习(IL)是一种常见的算法。它主要直接从监督轨迹数据中学习驾驶策略。尽管IL在许多开环基准测试中表现出色,但仍然很难确定学习到的策略是否真正理解了基本的驾驶原则,而不仅仅是从ego车辆的初始状态外推。一些研究已经识别出这一局限性,并提出了相应的解决方案。然而,这些方法通常使用原始数据集进行评估。在这些数据集中,未来的轨迹很大程度上依赖于初始条件。此外,IL往往会过度适应最常见的场景,难以泛化到罕见或未见过的情况。
为了解决这些挑战,本工作提出:1)一种新颖的闭环仿真器,支持模仿学习和强化学习,2)一个从Waymo Open Dataset派生出的因果基准,以严格评估拷贝猫问题的影响,3)一个新的框架,将模仿学习和强化学习结合起来以克服纯模仿方法的局限性。此工作的代码将在不久后发布。