摘要
arXiv:2406.11132v2 宣告类型: replace-cross
摘要:在过去一年中,大规模语言模型(LLMs)在传统自然语言处理领域之外的领域取得了显著成功,并且通过与外部工具连接,其容量进一步扩展到所谓的LLM代理。在所有领域中,已经证明LLMs的提示对其生成的内容有很大影响,从而影响LLM代理的性能。因此,自动提示工程(APE)已经成为许多LLMs研究者和使用者关注的一个重要问题。然而,APE的先前工作依赖于最终检查器来评估给定提示的性能——在LLM代理的情况下,这种要求变得难以满足,因为可以更容易地获得中间反馈,最终评估可能是昂贵的、不准确的甚至是缺失的。在本文中,我们提出了一种新的方法——\textsc{RePrompt},它采用类似于梯度下降的方法来优化LLM代理中给定提示的逐步指令,这基于与LLM代理互动和反思所获得的对话历史。通过利用中间反馈,\textsc{RePrompt}可以在不需要最终解决方案检查器的情况下优化提示。我们在PDDL生成、TravelPlanner和Meeting Planning任务上评估了我们的方法,展示了我们的方法可以普遍提高不同推理任务的性能。