摘要
自回归世界模型在矢量化场景理解方面展现出强大的泛化能力,但在推断行动时却遇到了困难,因为其缺乏对不确定性的建模,并存在自我欺骗的现象。本文探讨了从自回归世界模型中推断决策的可行性,通过构建多个概率假设来解决这些挑战。我们提出了 LatentDriver,这是一个框架,它将环境的下一个状态和自我车辆的可能行动建模为混合分布,然后从中推导出确定性的控制信号。通过引入混合建模,决策过程的随机性得到了体现。此外,通过向世界模型提供从分布中采样的中间行动,缓解了自我欺骗问题。在最近发布的闭环基准 Waymax 上的实验结果表明,LatentDriver 超越了最先进的强化学习和模仿学习方法,实现了专家级性能。代码和模型将在 https://github.com/Sephirex-X/LatentDriver 上公开发布。