LLM2D
PLHF: 基于少量人类反馈的提示优化
PLHF: Prompt Optimization with Few-Shot Human Feedback
作者: Chun-Pai Yang, Kan Zheng, Shou-De Lin
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.07886v1

摘要

arXiv:2505.07886v1 Announce Type: cross 摘要:自动提示优化框架旨在为大型语言模型(LLMs)获得符合预期输出质量指标的提示。虽然现有的方法可以处理诸如固定解决方案问答这类常规任务,但在输出质量无法通过与标准金标准样本进行比较来容易评估时,定义指标变得复杂。因此,在没有明确指标的情况下,有效且高效地优化提示变得是一个关键挑战。为解决这个问题,我们提出了一种名为PLHF(“P”rompt “L”earning with “H”uman “F”eedback)的少量示例提示优化框架,该框架灵感来源于广为人知的RLHF技术。与简单的策略不同,PLHF采用了一个特定的评估器模块,充当指标来估计输出质量。PLHF只需要一轮人类反馈即可完成整个提示优化过程。实证结果表明,PLHF在LLM提示优化中优于先前的输出评分策略。