LLM2D
提高Transformer世界模型以实现数据高效强化学习
Improving Transformer World Models for Data-Efficient RL
作者: Antoine Dedieu, Joseph Ortiz, Xinghua Lou, Carter Wendelken, Wolfgang Lehrach, J Swaroop Guntupalli, Miguel Lazaro-Gredilla, Kevin Patrick Murphy
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01591v1

摘要

arXiv:2502.01591v1 宣告类型: cross 摘要:我们提出了一种基于模型的强化学习方法,该方法在具有挑战性的Craftax-classic基准上达到了新的性能标准,该基准是一个开放世界2D生存游戏,要求智能体表现出广泛的通用能力——例如,强大的泛化能力、深刻的探索能力和长期推理能力。通过一系列旨在提高样本效率的设计选择,我们的基于模型的强化学习算法在仅进行100万环境步后就获得了67.4%的奖励,显著优于DreamerV3,后者仅为53.2%,并且首次超过了人类的65.0%的性能。我们的方法首先通过使用结合卷积神经网络(CNN)和循环神经网络(RNN)的新型策略架构构建了一个最先进(SOTA)的无模型基线。然后,我们对标准的基于模型的强化学习设置进行了三项改进:(a) “Dyna with warmup”,该方法在真实和虚拟数据上训练策略;(b) “最近邻词法标记器”应用于图像块,这改进了创建变换器世界模型(TWM)输入的方案;(c) “块教师强迫”,这使TWM能够联合推理关于下一个时间步的未来标记。