LLM2D
系统-1.x:学习平衡快速规划与缓慢规划的语言模型
System-1.x: Learning to Balance Fast and Slow Planning with Language Models
作者: Swarnadeep Saha, Archiki Prasad, Justin Chih-Yao Chen, Peter Hase, Elias Stengel-Eskin, Mohit Bansal
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2407.14414v2

摘要

arXiv:2407.14414v2 宣告类型:替换 摘要:语言模型可以在两种不同的模式下解决长期计划问题:一种快速的“系统1”模式,直接生成计划而无需明确的搜索或回退;另一种缓慢的“系统2”模式,通过明确搜索可能的操作进行逐步计划。虽然系统2通常更有效,但它也更耗计算资源,使得对于长计划或大操作空间来说并不实际。此外,孤立的系统1或2无法考虑用户的最终目标,无法控制模型的行为。为此,我们提出了系统1.x规划器,这是一个基于LLM的可控规划框架,能够生成混合计划并根据手头问题的难度在两种规划模式之间进行平衡。系统1.x由以下三部分组成:(i) 控制器,(ii) 系统1规划器,和(iii) 系统2规划器。根据用户指定的混合因子(x)控制系统1和2间的混合比例,控制器将问题分解为子目标,并将它们分类为由系统1或2解决的容易或困难的目标。我们在此单一基础LLM之上对这三个组件进行微调,只需要搜索痕迹作为监督即可。实验使用两个不同的规划任务——迷宫导航和积木世界表明,我们的系统1.x规划器优于系统1规划器、被训练以近似A*搜索的系统2规划器,以及符号规划器(A*)。我们展示了我们规划器的以下关键特性:(1) 可控性:增加混合因子(例如,从系统1.75到1.5)会进行更多的搜索,从而改善性能;(2) 灵活性:通过构建神经-符号变体,使用神经系统1和符号系统2,我们可以利用现有的符号方法;(3) 通用性:由于能够从不同的搜索算法中学习,我们的方法对搜索算法的选择具有鲁棒性。