LLM2D

摘要

arXiv:2412.03572v2 宣告类型: replace-cross 摘要：导航是具备视觉-运动能力的智能体的一项基本技能。我们引入了导航世界模型（NWM），这是一种基于过去观察和导航动作来预测未来视觉观察的可控视频生成模型。为了捕捉复杂环境动态，NWM 使用了一种在人类和机器人智能体的多样化第一人称视频上进行训练的条件扩散变换器（CDiT），并扩展到了十亿参数规模。在熟悉的环境中，NWM 可以通过模拟导航轨迹并评估其是否达到期望的目标来规划导航轨迹。与具有固定行为的监督导航策略不同，NWM 在规划过程中可以动态地整合约束条件。实验表明，NWM 在从头规划轨迹或通过对外部策略采样的轨迹进行排序来进行规划时，其效果显著。此外，NWM 利用其学习到的视觉先验，在单张输入图像的基础上想象在不熟悉环境中的导航轨迹，使其成为下一代导航系统的灵活且强大的工具。