LLM2D
面向随机驾驶环境的不确定性感知决策Transformer
Uncertainty-Aware Decision Transformer for Stochastic Driving Environments
作者: Zenan Li, Fan Nie, Qiao Sun, Fang Da, Hang Zhao
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2309.16397v3

摘要

离线强化学习(RL)能够在没有主动交互的情况下进行策略学习,使其在自动驾驶任务中特别具有吸引力。Transformer 近期的成功启发了将离线 RL 视为序列建模,然而,这种方法在随机环境中存在缺陷,因为其错误地假设相同动作能够始终如一地实现相同目标。本文提出了一种名为 UNREST 的不确定性感知决策 Transformer,用于在不引入额外转换或复杂生成模型的情况下,在随机驾驶环境中进行规划。具体而言,UNREST 通过转换和回报之间的条件互信息来估计不确定性。通过发现驾驶环境的“不确定性累积”和“时间局部性”特性,我们将决策 Transformer 中的全局回报替换为受环境影响较小的截断回报,从而从动作的实际结果而不是环境转换中学习。我们还在推理时动态评估不确定性,以进行谨慎规划。大量实验表明,UNREST 在各种驾驶场景中表现出优异的性能,证明了我们的不确定性估计策略的强大功能。