LLM2D

摘要

arXiv:2502.10012v1 宣布类型: 新颖摘要: 可微模拟器最近在训练自主车辆控制器方面显示出巨大的潜力。由于可以对其进行反向传播，它们可以被放置在一个端到端的训练循环中，其已知动力学可以变成策略学习有用的前提知识，从而去除环境的典型黑盒假设。迄今为止，这些系统只被用于训练策略。然而，从它们能够提供的角度来看，这并不是故事的终点。在这里，我们首次使用它们来训练世界模型。具体地，我们提出了三个新的任务设置，使得我们能够学习下一个状态预测器、最优规划器和最优逆状态。与需要当前动作对下一个模拟状态梯度的解析策略梯度(APG)不同，我们提出的设置依赖于当前状态对下一个状态的梯度。我们称这种方法为解析世界模型(AWM)，并展示了它的应用，包括如何在Waymax模拟器中使用它进行规划。除了推动此类模拟器所能实现的极限之外，我们还提供了一种改进的训练配方，在本质上几乎没有额外成本的情况下，相比于基线方法，在大规模Waymo Open Motion数据集上的性能提高了高达12%。