LLM2D
合成世界的模型以进行 bilevel 规划
Synthesizing world models for bilevel planning
作者: Zergham Ahmed, Joshua B. Tenenbaum, Christopher J. Bates, Samuel J. Gershman
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.20124v1

摘要

arXiv:2503.20124v1 宣告类型: new 摘要: 现代强化学习(RL)系统在复杂环境中展示了惊人的能力,例如电子游戏。然而,当学习新领域时,它们仍然在达到人类级别的采样效率和适应性方面有所欠缺。基于理论的强化学习(TBRL)是一种专门为此差距设计的算法框架。TBRL以认知理论为基础,利用结构化因果世界模型——“理论”——作为规划、泛化和探索的向前模拟器。尽管现有的TBRL系统对人类如何学习玩电子游戏提供了令人信服的解释,但它们面临一些技术限制:其理论语言较为受限,其规划算法不具有可扩展性。为了解决这些挑战,我们引入了TheoryCoder,这是一种TBRL的实例化实现,它利用hierarchic理论的表示和高效的程序合成方法以实现更强大的学习和规划。TheoryCoder为代理提供了通用的抽象(如“移动到”),然后通过从观察中学习低层过渡模型(由大型语言模型从观察中合成的Python程序)将这些抽象具体化到特定环境中。二阶规划算法可以利用这种层次结构来解决大型领域。我们证明了这种方法可以成功应用于各种困难的格状世界游戏,而在这些游戏中,直接合成策略的方法表现不佳。消融研究表明,使用层次抽象具有优势。