摘要
大型语言模型 (LLM) 在各种任务中展现出令人印象深刻的性能,但它们在需要多步骤推理或目标导向规划的任务中往往表现不佳。认知神经科学和强化学习 (RL) 都提出了一系列相互作用的功能组件,共同实现多步骤决策中的搜索和评估。这些组件包括冲突监控、状态预测、状态评估、任务分解和协调。为了改进 LLM 的规划能力,我们提出了一种代理架构,即模块化代理规划器 (MAP),其中规划通过上述各个专业模块的循环交互来实现,每个模块都使用 LLM 实现。MAP 通过专业模块的交互来改进规划,这些模块将一个更大的问题分解成对 LLM 的多个简短自动化调用。我们在三个具有挑战性的规划任务(图遍历、汉诺塔和 PlanBench 基准)以及一项需要多步骤推理的 NLP 任务 (strategyQA) 上评估了 MAP。我们发现,MAP 在标准 LLM 方法(零样本提示、上下文学习)和竞争性基线(思维链、多智能体辩论和思维树)方面都取得了显著的改进,可以有效地与更小、更具成本效益的 LLM(Llama3-70B)结合使用,并在任务之间展现出优越的迁移能力。这些结果表明,采用模块化和多智能体方法来规划 LLM 是有益的。