LLM2D
自我监督的提示优化
Self-Supervised Prompt Optimization
作者: Jinyu Xiang, Jiayi Zhang, Zhaoyang Yu, Fengwei Teng, Jinhao Tu, Xinbing Liang, Sirui Hong, Chenglin Wu, Yuyu Luo
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.06855v2

摘要

arXiv:2502.06855v2 宣告类型: replace-cross 摘要:精心设计的提示对于增强大型语言模型(LLMs)的推理能力,并使其输出符合跨不同领域的任务需求至关重要。然而,手动设计的提示需要专业知识和迭代实验。虽然现有的提示优化方法旨在自动化这一过程,但它们严重依赖于外部参考,如真实标签或由人类提供,限制了它们在真实场景中的应用,因为在这些场景中,这样的数据不可用或获取成本高昂。为了解决这个问题,我们提出了自监督提示优化(SPO),这是一种成本效益高的框架,可以在无需外部参考的情况下发现封闭和开放式任务的有效提示。受观测到的提示质量直接反映在LLM输出中以及LLMs能够有效评估对任务需求的符合性的启发,我们仅从输出比较中推导出评估和优化信号。具体而言,SPO 通过LLM评估器对成对输出进行比较来选择更优的提示,随后使用LLM优化器将输出与任务要求对齐。广泛的实验表明,SPO 在性能上超过了最先进的提示优化方法,在显著降低成本(例如,现有方法的1.1%到5.6%)和样品数量(例如,三个样品)的情况下取得了可相比或更优的结果。代码可在 https://github.com/geekan/MetaGPT/blob/main/examples/spo 获得。