LLM2D

摘要

arXiv:2408.11816v3 宣告类型: replace-cross 摘要：面对强化学习中的探索难题，我们研究了是否通过给智能体提供以物体为中心的映射（描述一组物品及其属性）可以使其学习更加高效。我们发现这个问题可以通过层次化建模来解决，即将物品在较高层次的状态抽象化为像素表示，将属性的变化在较高层次的时间抽象化为基本动作。这种抽象简化了状态转移动态，使其更容易预测特定的未来状态。我们利用这一点提出了一个完全基于模型的算法，该算法可以学习一个判别性世界模型，仅依赖基于计数的固有奖励高效地计划探索，并且可以随后计划到达任何已发现的（抽象表示的）状态。我们展示了该模型的能力，包括：(i) 高效地解决单个任务，(ii) 跨物品类型和环境进行零样本和少样本的迁移，(iii) 跨长时间段进行计划。在一系列2D制作环境和MiniHack环境中，我们实验证据表明，该模型在没有使用抽象的低层次方法中显著优于最先进的方法，同时使用相同的抽象机制，表现优秀的模型自由和模型驱动方法也表现更优。最后，我们展示了如何通过强化学习学习低层次的物体扰动策略，并通过监督学习学习物体映射本身。