LLM2D

摘要

arXiv:2502.11537v2 译文标题类型: replace-cross 摘要: 基于令牌的世界模型作为一种有希望的模块化框架出现，该框架能够在令牌流中建模动态，并单独优化令牌化过程。尽管在具有离散动作的视觉环境中（例如，阿特利游戏）取得了成功，但它们的更广泛应用仍然存在不确定性。在本文中，我们引入了$\text{M}^{\text{3}}$，一种模块化世界模型，扩展了这一框架，通过独立的模态特定组件实现对观测和动作模态的灵活组合。$\text{M}^{\text{3}}$整合了现有文献中的多项改进，以增强代理性能。通过广泛的经验评估，$\text{M}^{\text{3}}$在无需规划的世界模型中达到了最先进的样本效率。值得注意的是，在这些方法中，它是第一个在阿特利100K上达到人类级别中位数得分的方法，并在13个游戏中表现出超乎常人的性能。我们的代码和模型权重可在https://github.com/leor-c/M3公开获取。