LLM2D

摘要

大型语言模型 (LLM) 在各种任务中展现出令人印象深刻的性能，但它们在需要多步骤推理或目标导向规划的任务中往往表现不佳。认知神经科学和强化学习 (RL) 都提出了一系列相互作用的功能组件，共同实现多步骤决策中的搜索和评估。这些组件包括冲突监控、状态预测、状态评估、任务分解和协调。为了改进 LLM 的规划能力，我们提出了一种代理架构，即模块化代理规划器 (MAP)，其中规划通过上述各个专业模块的循环交互来实现，每个模块都使用 LLM 实现。MAP 通过专业模块的交互来改进规划，这些模块将一个更大的问题分解成对 LLM 的多个简短自动化调用。我们在三个具有挑战性的规划任务（图遍历、汉诺塔和 PlanBench 基准）以及一项需要多步骤推理的 NLP 任务 (strategyQA) 上评估了 MAP。我们发现，MAP 在标准 LLM 方法（零样本提示、上下文学习）和竞争性基线（思维链、多智能体辩论和思维树）方面都取得了显著的改进，可以有效地与更小、更具成本效益的 LLM（Llama3-70B）结合使用，并在任务之间展现出优越的迁移能力。这些结果表明，采用模块化和多智能体方法来规划 LLM 是有益的。