LLM2D

摘要

大型语言模型（LLM）显著推动了智能体系统中的顺序推理，但现有方法仍存在局限性。基于反思的推理仅依赖于预训练模型中的知识，在新的场景中性能有限；而基于经验的推理通常依赖于外部经验，且缺乏选择代表性经验的明确原则。我们通过提出CoPS（跨任务经验共享）算法来解决这些局限性，该算法通过跨任务经验共享和选择来增强顺序推理。具体而言，CoPS利用智能体在先前任务上的经验，通过基于可证明悲观策略的选择与分布匹配的经验，从而最大化效用，同时最小化分布偏移带来的风险。在Alfworld、Webshop和HotPotQA等基准测试上的大量实验结果表明，CoPS始终优于最先进的基线，具有适用于资源受限场景的优越样本效率。从理论上讲，我们证明了该算法的性能取决于预训练LLM的质量以及智能体任务相关的试验分布与LLM生成的分布之间的匹配程度。我们的工作弥合了现有顺序推理范式之间的差距，并验证了利用跨任务经验的有效性，揭示了提高智能体在不同任务上的泛化能力和适应能力的潜力。我们的代码可在$\href{https://github.com/uclaml/COPS}{\text{https://github.com/uclaml/COPS}}$获取。