LLM2D

摘要

arXiv:2406.11132v2 宣告类型: replace-cross 摘要：在过去一年中，大规模语言模型（LLMs）在传统自然语言处理领域之外的领域取得了显著成功，并且通过与外部工具连接，其容量进一步扩展到所谓的LLM代理。在所有领域中，已经证明LLMs的提示对其生成的内容有很大影响，从而影响LLM代理的性能。因此，自动提示工程（APE）已经成为许多LLMs研究者和使用者关注的一个重要问题。然而，APE的先前工作依赖于最终检查器来评估给定提示的性能——在LLM代理的情况下，这种要求变得难以满足，因为可以更容易地获得中间反馈，最终评估可能是昂贵的、不准确的甚至是缺失的。在本文中，我们提出了一种新的方法——\textsc{RePrompt}，它采用类似于梯度下降的方法来优化LLM代理中给定提示的逐步指令，这基于与LLM代理互动和反思所获得的对话历史。通过利用中间反馈，\textsc{RePrompt}可以在不需要最终解决方案检查器的情况下优化提示。我们在PDDL生成、TravelPlanner和Meeting Planning任务上评估了我们的方法，展示了我们的方法可以普遍提高不同推理任务的性能。