摘要
arXiv:2504.01871v1 强化学习类型: 横向研究
摘要: 我们首次提供了无模型强化学习代理能够学习规划的机制证据。这是通过在 Sokoban 这一常用于研究规划的基准测试中应用基于概念可解释性的方法来实现的——Sokoban 是一个广泛使用的规划研究基准。具体来说,我们展示了 Guez 等人 (2019) 引入的通用无模型代理 DRC 使用学习的概念表示来内部制定计划,这些计划不仅能预测操作对环境的长期影响,还能影响操作选择。我们的方法包括:(1) 探测与规划相关的概念,(2) 探讨代理表示中的计划形成,以及 (3) 通过干预验证代理表示中发现的计划对代理行为的因果影响。我们还展示了这些计划的出现与代理出现类似规划的属性——利用额外的测试时计算能力的能力——相吻合。最后,我们对代理学习到的规划算法进行了定性分析,并发现其与并行双向搜索有强烈相似之处。我们的发现促进了对代理内部机制中规划行为的理解,鉴于最近的语言模型通过强化学习出现的规划和推理能力增强的趋势,这一点尤为重要。