摘要
提示优化旨在为给定任务找到针对大型语言模型 (LLM) 的最佳提示。LLM 已成功用于帮助查找和改进单步任务的提示候选。但是,代理的现实任务是多步骤的,并带来了新的挑战:(1)提示内容可能更广泛、更复杂,这使得 LLM 更难分析错误,(2)单个步骤的影响难以评估,以及(3)不同的人可能对任务执行有不同的偏好。虽然人类难以优化提示,但他们在提供关于 LLM 输出的反馈方面很擅长;因此,我们引入了一个新的 LLM 驱动的离散提示优化框架 PRompt Optimization in Multi-Step Tasks (PROMST),该框架结合了人工设计的反馈规则,以自动提供改进的直接建议。我们还使用了一个额外的学习启发式模型来预测提示性能,以便从提示候选者中有效地采样。这种方法在 11 个代表性的多步骤任务中显著优于人工设计的提示和其他几种提示优化方法(分别在五个 LLM 上比当前最佳方法平均提高了 10.6%-29.3%)。我们相信我们的工作可以作为 LLM 驱动的多步骤任务的自动提示优化的基准。数据集和代码可在 https://github.com/yongchao98/PROMST 获取。项目页面可在 https://yongchao98.github.io/MIT-REALM-PROMST 获取。