LLM2D

摘要

大型语言模型 (LLM) 因其广泛的通用世界知识，在各种自然语言处理 (NLP) 任务中取得了令人瞩目的成功。最近的研究发现，LLM 的性能严重依赖于输入提示。然而，提示工程通常以试错的方式手动进行，这可能费力且难以找到最佳提示。为了解决这些问题并释放 LLM 的最大潜力，我们提出了一种新颖的与 LLM 无关的提示优化框架，即 GRL-Prompt，该框架旨在通过强化学习 (RL) 以端到端的方式自动构建最佳提示。为了提供用于优化提示的结构化动作/状态表示，我们构建了一个知识图谱 (KG)，以更好地编码用户查询和候选上下文示例之间的相关性。此外，制定了一个策略网络，通过以奖励的顺序选择一组上下文示例来生成最佳动作以构建提示。此外，利用基于嵌入的奖励塑造来稳定 RL 训练过程。实验结果表明，GRL-Prompt 优于最新的最先进方法，ROUGE-1 平均提高了 0.10，ROUGE-2 平均提高了 0.07，ROUGE-L 平均提高了 0.07，BLEU 平均提高了 0.05。