LLM2D
AdaWorld:学习具有潜在动作的世界模型
AdaWorld: Learning Adaptable World Models with Latent Actions
作者: Shenyuan Gao, Siyuan Zhou, Yilun Du, Jun Zhang, Chuang Gan
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2503.18938v3

摘要

arXiv:2503.18938v3 宣告类型: 替换 摘要:世界模型旨在学习由动作控制的未来预测,并已被证明对于智能代理的发展至关重要。然而,大多数现有的世界模型严重依赖于大量标记动作的数据和昂贵的训练,这使得它们难以通过有限的交互来适应具有异构动作的新环境。这一局限性可能阻碍其在更广泛的领域中的应用。为了克服这一局限性,我们提出了AdaWorld,这是一种创新的世界模型学习方法,能够实现高效的适应。关键思路是在世界模型的预训练过程中引入动作信息。这通过一种自我监督的方式从视频中提取潜在动作来实现,捕捉帧之间的关键过渡。然后,我们开发了一种条件生成的世界模型,该模型基于这些潜在动作进行条件化。这种学习范式使得世界模型可以高度适应,即使在有限的交互和微调情况下也能高效地转移和学习新动作。我们在多个环境中的全面实验表明,AdaWorld 在仿真质量和视觉规划方面均表现出优越的性能。