摘要
离线强化学习(RL)能够在没有主动交互的情况下进行策略学习,使其在自动驾驶任务中特别具有吸引力。Transformer 近期的成功启发了将离线 RL 视为序列建模,然而,这种方法在随机环境中存在缺陷,因为其错误地假设相同动作能够始终如一地实现相同目标。本文提出了一种名为 UNREST 的不确定性感知决策 Transformer,用于在不引入额外转换或复杂生成模型的情况下,在随机驾驶环境中进行规划。具体而言,UNREST 通过转换和回报之间的条件互信息来估计不确定性。通过发现驾驶环境的“不确定性累积”和“时间局部性”特性,我们将决策 Transformer 中的全局回报替换为受环境影响较小的截断回报,从而从动作的实际结果而不是环境转换中学习。我们还在推理时动态评估不确定性,以进行谨慎规划。大量实验表明,UNREST 在各种驾驶场景中表现出优异的性能,证明了我们的不确定性估计策略的强大功能。