LLM2D

摘要

arXiv:2502.01591v1 宣告类型: cross 摘要：我们提出了一种基于模型的强化学习方法，该方法在具有挑战性的Craftax-classic基准上达到了新的性能标准，该基准是一个开放世界2D生存游戏，要求智能体表现出广泛的通用能力——例如，强大的泛化能力、深刻的探索能力和长期推理能力。通过一系列旨在提高样本效率的设计选择，我们的基于模型的强化学习算法在仅进行100万环境步后就获得了67.4%的奖励，显著优于DreamerV3，后者仅为53.2%，并且首次超过了人类的65.0%的性能。我们的方法首先通过使用结合卷积神经网络(CNN)和循环神经网络(RNN)的新型策略架构构建了一个最先进（SOTA）的无模型基线。然后，我们对标准的基于模型的强化学习设置进行了三项改进：(a) “Dyna with warmup”，该方法在真实和虚拟数据上训练策略；(b) “最近邻词法标记器”应用于图像块，这改进了创建变换器世界模型(TWM)输入的方案；(c) “块教师强迫”，这使TWM能够联合推理关于下一个时间步的未来标记。