LLM2D

摘要

arXiv:2502.06855v2 宣告类型: replace-cross 摘要:精心设计的提示对于增强大型语言模型（LLMs）的推理能力，并使其输出符合跨不同领域的任务需求至关重要。然而，手动设计的提示需要专业知识和迭代实验。虽然现有的提示优化方法旨在自动化这一过程，但它们严重依赖于外部参考，如真实标签或由人类提供，限制了它们在真实场景中的应用，因为在这些场景中，这样的数据不可用或获取成本高昂。为了解决这个问题，我们提出了自监督提示优化（SPO），这是一种成本效益高的框架，可以在无需外部参考的情况下发现封闭和开放式任务的有效提示。受观测到的提示质量直接反映在LLM输出中以及LLMs能够有效评估对任务需求的符合性的启发，我们仅从输出比较中推导出评估和优化信号。具体而言，SPO 通过LLM评估器对成对输出进行比较来选择更优的提示，随后使用LLM优化器将输出与任务要求对齐。广泛的实验表明，SPO 在性能上超过了最先进的提示优化方法，在显著降低成本（例如，现有方法的1.1%到5.6%）和样品数量（例如，三个样品）的情况下取得了可相比或更优的结果。代码可在 https://github.com/geekan/MetaGPT/blob/main/examples/spo 获得。