LLM2D

摘要

大型语言模型（LLMs）的流行开启了语言代理的新时代，用于解决各种各样的任务。虽然当代前沿的LLMs 能够为合理的语言代理提供动力，但封闭的 API 模型使得在它们表现不佳的情况下难以改进。为了解决这个问题，最近的研究探索了使用自省和提示优化等技术来提高其性能的方法。不幸的是，像自省这样的技术只能在在线设置中使用，而当代的提示优化技术被设计和测试来处理简单的任务。为此，我们引入了 MetaReflection，这是一种新颖的离线强化学习技术，通过基于过去试验的经验学习来增强语义记忆，从而提高语言代理的性能。我们通过跨多个领域（包括复杂的逻辑推理、生物医学语义相似性、开放式世界问答和基础设施即代码中的漏洞威胁检测，涵盖不同的代理设计）的评估，证明了 MetaReflection 的有效性。MetaReflection 将语言代理的性能提高了 4% 到 16.82%，超过了原始的 GPT-4 基线，并且与现有的最先进的提示优化技术相当，同时需要更少的 LLM 调用。