LLM2D
基于对象中心化抽象的高效探索与辨别性世界模型学习
Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction
作者: Anthony GX-Chen, Kenneth Marino, Rob Fergus
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2408.11816v3

摘要

arXiv:2408.11816v3 宣告类型: replace-cross 摘要:面对强化学习中的探索难题,我们研究了是否通过给智能体提供以物体为中心的映射(描述一组物品及其属性)可以使其学习更加高效。我们发现这个问题可以通过层次化建模来解决,即将物品在较高层次的状态抽象化为像素表示,将属性的变化在较高层次的时间抽象化为基本动作。这种抽象简化了状态转移动态,使其更容易预测特定的未来状态。我们利用这一点提出了一个完全基于模型的算法,该算法可以学习一个判别性世界模型,仅依赖基于计数的固有奖励高效地计划探索,并且可以随后计划到达任何已发现的(抽象表示的)状态。 我们展示了该模型的能力,包括:(i) 高效地解决单个任务,(ii) 跨物品类型和环境进行零样本和少样本的迁移,(iii) 跨长时间段进行计划。在一系列2D制作环境和MiniHack环境中,我们实验证据表明,该模型在没有使用抽象的低层次方法中显著优于最先进的方法,同时使用相同的抽象机制,表现优秀的模型自由和模型驱动方法也表现更优。最后,我们展示了如何通过强化学习学习低层次的物体扰动策略,并通过监督学习学习物体映射本身。