LLM2D

摘要

arXiv:2503.22925v2 宣布类型: 替换-交叉摘要：自动驾驶车辆路径规划已经达到了一个关键阶段，安全性和合规性至关重要。本文提出了一种将运动规划器与深度强化学习模型结合起来的方法，以预测潜在的交通规则违规行为。我们的主要创新在于，使用了一个运动规划模块来替换标准的演员网络，从而确保生成稳定且可解释的轨迹。在此设置中，我们使用交通规则的 robustness 作为奖励来训练强化学习代理的批评家，并且批评家的输出直接用作运动规划器的成本函数，以指导轨迹的选择。我们从《德国道路交通法规》中纳入了一些关键的跨州规则，并使用基于图的状态表示来处理复杂的交通信息。在开放的德国高速公路数据集上的实验表明，该模型可以预测并防止超出规划范围的交通规则违规行为，提高了在复杂交通场景中的安全性和规则遵从性。