LLM2D

摘要

arXiv:2505.07886v1 Announce Type: cross 摘要：自动提示优化框架旨在为大型语言模型（LLMs）获得符合预期输出质量指标的提示。虽然现有的方法可以处理诸如固定解决方案问答这类常规任务，但在输出质量无法通过与标准金标准样本进行比较来容易评估时，定义指标变得复杂。因此，在没有明确指标的情况下，有效且高效地优化提示变得是一个关键挑战。为解决这个问题，我们提出了一种名为PLHF（“P”rompt “L”earning with “H”uman “F”eedback）的少量示例提示优化框架，该框架灵感来源于广为人知的RLHF技术。与简单的策略不同，PLHF采用了一个特定的评估器模块，充当指标来估计输出质量。PLHF只需要一轮人类反馈即可完成整个提示优化过程。实证结果表明，PLHF在LLM提示优化中优于先前的输出评分策略。