LLM2D

摘要

arXiv:2501.08096v2 通知类型: 替换-交叉摘要：强化学习（RL）在解决自主驾驶的决策制定和控制问题方面表现出卓越的性能，这些方法正越来越多地应用于多样化的驾驶场景中。然而，驾驶是一个多元属性的问题，这给当前的RL方法带来了在策略执行和策略迭代中实现多重目标兼容性的挑战，尤其是在政策执行和政策迭代中。一方面，具有单一动作类型的通用动作空间结构限制了驾驶的灵活性，或者导致在策略执行过程中出现大的行为波动。另一方面，多重属性加权单奖励函数导致代理在策略迭代中对某些目标的关注程度不均衡。为了解决这一问题，我们提出了一种适用于多重目标兼容自主驾驶的混合参数化动作的多目标集成批评强化学习方法。具体来说，构建了一个参数化动作空间，生成混合驾驶动作，结合了抽象指导和具体控制指令。考虑到多种属性奖励，构建了一个多目标批评架构，以确保同时关注不同的驾驶目标。此外，引入了一种基于不确定性的探索策略，以帮助代理更快地接近可行的驾驶策略。在模拟交通环境和HighD数据集中的实验结果表明，我们的方法在驾驶效率、动作一致性以及安全性方面实现了多重目标兼容的自主驾驶。这种方法在提高驾驶性能的同时，显著提高了训练效率。