摘要
arXiv:2502.10012v1 宣布类型: 新颖
摘要: 可微模拟器最近在训练自主车辆控制器方面显示出巨大的潜力。由于可以对其进行反向传播,它们可以被放置在一个端到端的训练循环中,其已知动力学可以变成策略学习有用的前提知识,从而去除环境的典型黑盒假设。迄今为止,这些系统只被用于训练策略。然而,从它们能够提供的角度来看,这并不是故事的终点。在这里,我们首次使用它们来训练世界模型。具体地,我们提出了三个新的任务设置,使得我们能够学习下一个状态预测器、最优规划器和最优逆状态。与需要当前动作对下一个模拟状态梯度的解析策略梯度(APG)不同,我们提出的设置依赖于当前状态对下一个状态的梯度。我们称这种方法为解析世界模型(AWM),并展示了它的应用,包括如何在Waymax模拟器中使用它进行规划。除了推动此类模拟器所能实现的极限之外,我们还提供了一种改进的训练配方,在本质上几乎没有额外成本的情况下,相比于基线方法,在大规模Waymo Open Motion数据集上的性能提高了高达12%。