LLM2D

摘要

离线强化学习（RL）能够在没有主动交互的情况下进行策略学习，使其在自动驾驶任务中特别具有吸引力。Transformer 近期的成功启发了将离线 RL 视为序列建模，然而，这种方法在随机环境中存在缺陷，因为其错误地假设相同动作能够始终如一地实现相同目标。本文提出了一种名为 UNREST 的不确定性感知决策 Transformer，用于在不引入额外转换或复杂生成模型的情况下，在随机驾驶环境中进行规划。具体而言，UNREST 通过转换和回报之间的条件互信息来估计不确定性。通过发现驾驶环境的“不确定性累积”和“时间局部性”特性，我们将决策 Transformer 中的全局回报替换为受环境影响较小的截断回报，从而从动作的实际结果而不是环境转换中学习。我们还在推理时动态评估不确定性，以进行谨慎规划。大量实验表明，UNREST 在各种驾驶场景中表现出优异的性能，证明了我们的不确定性估计策略的强大功能。