LLM2D
基于强化学习的知识图谱提示词优化:GRL-Prompt
GRL-Prompt: Towards Knowledge Graph based Prompt Optimization via Reinforcement Learning
作者: Yuze Liu, Tingjie Liu, Tiehua Zhang, Youhua Xia, Jinze Wang, Zhishu Shen, Jiong Jin, Fei Richard Yu
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.14479v1

摘要

大型语言模型 (LLM) 因其广泛的通用世界知识,在各种自然语言处理 (NLP) 任务中取得了令人瞩目的成功。最近的研究发现,LLM 的性能严重依赖于输入提示。然而,提示工程通常以试错的方式手动进行,这可能费力且难以找到最佳提示。为了解决这些问题并释放 LLM 的最大潜力,我们提出了一种新颖的与 LLM 无关的提示优化框架,即 GRL-Prompt,该框架旨在通过强化学习 (RL) 以端到端的方式自动构建最佳提示。为了提供用于优化提示的结构化动作/状态表示,我们构建了一个知识图谱 (KG),以更好地编码用户查询和候选上下文示例之间的相关性。此外,制定了一个策略网络,通过以奖励的顺序选择一组上下文示例来生成最佳动作以构建提示。此外,利用基于嵌入的奖励塑造来稳定 RL 训练过程。实验结果表明,GRL-Prompt 优于最新的最先进方法,ROUGE-1 平均提高了 0.10,ROUGE-2 平均提高了 0.07,ROUGE-L 平均提高了 0.07,BLEU 平均提高了 0.05。