摘要
近年来,自动驾驶技术的进步涉及有效处理和学习大量现实世界驾驶数据的能力。当前的模仿学习和离线强化学习方法在自动系统中展现出非凡的潜力,利用离线数据集的力量在开环(非反应式代理)环境中做出明智的决策。然而,基于学习的代理在将知识从开环环境转移到闭环(反应式代理)环境时面临着重大挑战。数据分布偏移、样本效率、揭示隐藏世界模型和物理复杂性等因素显著影响性能。为了解决这些问题,我们提出了样本高效的模仿多令牌决策转换器(SimDT)。SimDT 引入了多令牌预测、在线模仿学习管道和优先经验回放,以实现序列建模强化学习。性能通过实证实验评估,结果在 Waymax 基准的开环和闭环设置中均超过了流行的模仿和强化学习算法。与基线方法相比,SimDT 的碰撞率降低了 41%,到达目的地的成功率提高了 18%。