摘要
arXiv:2502.01591v1 宣告类型: cross
摘要:我们提出了一种基于模型的强化学习方法,该方法在具有挑战性的Craftax-classic基准上达到了新的性能标准,该基准是一个开放世界2D生存游戏,要求智能体表现出广泛的通用能力——例如,强大的泛化能力、深刻的探索能力和长期推理能力。通过一系列旨在提高样本效率的设计选择,我们的基于模型的强化学习算法在仅进行100万环境步后就获得了67.4%的奖励,显著优于DreamerV3,后者仅为53.2%,并且首次超过了人类的65.0%的性能。我们的方法首先通过使用结合卷积神经网络(CNN)和循环神经网络(RNN)的新型策略架构构建了一个最先进(SOTA)的无模型基线。然后,我们对标准的基于模型的强化学习设置进行了三项改进:(a) “Dyna with warmup”,该方法在真实和虚拟数据上训练策略;(b) “最近邻词法标记器”应用于图像块,这改进了创建变换器世界模型(TWM)输入的方案;(c) “块教师强迫”,这使TWM能够联合推理关于下一个时间步的未来标记。