LLM2D
$\text{M}^{\text{3}}$: 基于令牌流的模块化世界模型
$\text{M}^{\text{3}}$: A Modular World Model over Streams of Tokens
作者: Lior Cohen, Kaixin Wang, Bingyi Kang, Uri Gadot, Shie Mannor
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11537v1

摘要

arXiv:2502.11537v1 Announce Type: cross 摘要:基于标记的世界模型作为一种有前景的模块化框架出现,这种框架可以对标记流中的动力学进行建模,同时独立优化标记化。虽然在具有离散动作的视觉环境中(例如,Atari 游戏)取得了成功,但对于其更广泛的应用前景仍然不确定。在本文中,我们提出了M³,一种模块化世界模型,扩展了这种框架,通过独立的模态特定组件实现观察和动作模态的灵活组合。M³整合了现有文献中的多种改进,以提升代理性能。通过在多种基准上的广泛实证评估,M³在无策略的世界模型中达到了最先进的样本效率。值得注意的是,在这些方法中,它是第一个在Atari 100K上达到人类水平中位数得分的方法,并在13个游戏中表现出超人类性能。我们开源了我们的代码和权重。