LLM2D

摘要

arXiv:2411.04983v2 Announce Type: replace-cross 摘要：根据控制行动预测未来结果的能力是物理推理的基础。然而，这些预测模型，通常称为世界模型，仍然很难学习，并且通常是为了特定任务的解决方案，在线策略学习而开发的。为了释放世界模型的真正潜力，我们argue认为它们应该1)能够在离线预先收集的轨迹上进行训练，2)支持测试时的行为优化，3)促进任务无关的推理。为此，我们提出了DINO世界模型（DINO-WM），这是一种新的方法，用于建模视觉动力学，而不重建视觉世界。DINO-WM 利用了用DINOv2预训练的空间补丁特征，使其能够通过预测未来补丁特征从离线的行为轨迹中学习。这使得DINO-WM能够在行动序列优化中实现观察目标，通过将目标特征作为预测目标来促进任务无关的规划。我们展示了DINO-WM能够在六个环境中实现零样本测试时的行为解决方案，而无需专家演示、奖励建模或预学习的逆模型，其在诸如任意配置的迷宫、不同形状物体的推操作以及多粒子场景等多种任务家族中都优于先前的最佳工作。