LLM2D

摘要

arXiv:2503.20124v1 宣告类型: new 摘要: 现代强化学习（RL）系统在复杂环境中展示了惊人的能力，例如电子游戏。然而，当学习新领域时，它们仍然在达到人类级别的采样效率和适应性方面有所欠缺。基于理论的强化学习（TBRL）是一种专门为此差距设计的算法框架。TBRL以认知理论为基础，利用结构化因果世界模型——“理论”——作为规划、泛化和探索的向前模拟器。尽管现有的TBRL系统对人类如何学习玩电子游戏提供了令人信服的解释，但它们面临一些技术限制：其理论语言较为受限，其规划算法不具有可扩展性。为了解决这些挑战，我们引入了TheoryCoder，这是一种TBRL的实例化实现，它利用hierarchic理论的表示和高效的程序合成方法以实现更强大的学习和规划。TheoryCoder为代理提供了通用的抽象（如“移动到”），然后通过从观察中学习低层过渡模型（由大型语言模型从观察中合成的Python程序）将这些抽象具体化到特定环境中。二阶规划算法可以利用这种层次结构来解决大型领域。我们证明了这种方法可以成功应用于各种困难的格状世界游戏，而在这些游戏中，直接合成策略的方法表现不佳。消融研究表明，使用层次抽象具有优势。