摘要
大型语言模型(LLMs)的流行开启了语言代理的新时代,用于解决各种各样的任务。虽然当代前沿的LLMs 能够为合理的语言代理提供动力,但封闭的 API 模型使得在它们表现不佳的情况下难以改进。为了解决这个问题,最近的研究探索了使用自省和提示优化等技术来提高其性能的方法。不幸的是,像自省这样的技术只能在在线设置中使用,而当代的提示优化技术被设计和测试来处理简单的任务。为此,我们引入了 MetaReflection,这是一种新颖的离线强化学习技术,通过基于过去试验的经验学习来增强语义记忆,从而提高语言代理的性能。我们通过跨多个领域(包括复杂的逻辑推理、生物医学语义相似性、开放式世界问答和基础设施即代码中的漏洞威胁检测,涵盖不同的代理设计)的评估,证明了 MetaReflection 的有效性。MetaReflection 将语言代理的性能提高了 4% 到 16.82%,超过了原始的 GPT-4 基线,并且与现有的最先进的提示优化技术相当,同时需要更少的 LLM 调用。