LLM2D

摘要

arXiv:2505.06737v1 交叉公告类型摘要：强化学习（RL）因其稳健的决策能力而被认为是实现自主驾驶的有前景的方法。RL 通过在交通场景中通过试错学习驾驶策略，以结合驾驶目标的奖励函数为引导。设计这样的奖励函数受到了不足的重视，导致设定了不明确的奖励且存在各种陷阱。特别是，安全长期仅被视为碰撞的惩罚。这使得与碰撞相关的各种行动的风险未被解决，限制了 RL 在现实场景中的适用性。为了解决这些问题，我们的工作集中在通过定义一系列驾驶目标并按层次结构进行结构化来增强奖励公式。此外，我们讨论了这些目标的标准化表示，以便透明地确定它们对总奖励的贡献。另外，我们引入了一种基于二维椭圆函数和Responsibility-Sensitive Safety（RSS）概念扩展的新型风险管理目标，用于各种驾驶交互。我们在不同交通密度的无信号交叉口场景中评估了我们提出的奖励的有效性。该方法平均将碰撞率降低了21%，并且在路线进展和累计奖励方面始终优于基本奖励，证明了其促进更安全驾驶行为的能力，同时保持了高性能水平。