LLM2D
CoPS:赋能大型语言模型智能体,实现可证明的跨任务经验共享
CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing
作者: Chen Yang, Chenyang Zhao, Quanquan Gu, Dongruo Zhou
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.16670v1

摘要

大型语言模型(LLM)显著推动了智能体系统中的顺序推理,但现有方法仍存在局限性。基于反思的推理仅依赖于预训练模型中的知识,在新的场景中性能有限;而基于经验的推理通常依赖于外部经验,且缺乏选择代表性经验的明确原则。我们通过提出CoPS(跨任务经验共享)算法来解决这些局限性,该算法通过跨任务经验共享和选择来增强顺序推理。具体而言,CoPS利用智能体在先前任务上的经验,通过基于可证明悲观策略的选择与分布匹配的经验,从而最大化效用,同时最小化分布偏移带来的风险。在Alfworld、Webshop和HotPotQA等基准测试上的大量实验结果表明,CoPS始终优于最先进的基线,具有适用于资源受限场景的优越样本效率。从理论上讲,我们证明了该算法的性能取决于预训练LLM的质量以及智能体任务相关的试验分布与LLM生成的分布之间的匹配程度。我们的工作弥合了现有顺序推理范式之间的差距,并验证了利用跨任务经验的有效性,揭示了提高智能体在不同任务上的泛化能力和适应能力的潜力。我们的代码可在$\href{https://github.com/uclaml/COPS}{\text{https://github.com/uclaml/COPS}}$获取。