LLM2D

摘要

自回归世界模型在矢量化场景理解方面展现出强大的泛化能力，但在推断行动时却遇到了困难，因为其缺乏对不确定性的建模，并存在自我欺骗的现象。本文探讨了从自回归世界模型中推断决策的可行性，通过构建多个概率假设来解决这些挑战。我们提出了 LatentDriver，这是一个框架，它将环境的下一个状态和自我车辆的可能行动建模为混合分布，然后从中推导出确定性的控制信号。通过引入混合建模，决策过程的随机性得到了体现。此外，通过向世界模型提供从分布中采样的中间行动，缓解了自我欺骗问题。在最近发布的闭环基准 Waymax 上的实验结果表明，LatentDriver 超越了最先进的强化学习和模仿学习方法，实现了专家级性能。代码和模型将在 https://github.com/Sephirex-X/LatentDriver 上公开发布。