摘要
我们研究了基于用户对语言代理输出所做的编辑来进行基于大型语言模型 (LLM) 的语言代理的交互式学习。在写作助手等典型场景中,用户与语言代理交互以生成给定上下文下的响应,并可以选择编辑代理响应以根据其潜在偏好对其进行个性化处理,以及提高正确性。编辑反馈是自然生成的,使其成为改进代理与用户偏好一致性以及随着时间推移降低用户编辑成本的合适候选方案。我们提出了一种学习框架 PRELUDE,该框架基于历史编辑数据推断用户潜在偏好的描述。推断出的用户偏好描述用于定义未来生成响应的提示。这避免了微调代理,这成本高昂,难以随着用户数量的增加而扩展,甚至可能降低其在其他任务上的性能。此外,学习描述性偏好可以提高可解释性,允许用户查看和修改学习到的偏好。然而,用户偏好可能很复杂、微妙,并且会根据上下文而变化,这使得学习具有挑战性。为了解决这个问题,我们提出了一种简单而有效的算法 CIPHER,该算法利用 LLM 根据用户编辑来推断给定上下文下的用户偏好。将来,CIPHER 将从历史上 k 个最接近的上下文中检索推断出的偏好,并形成用于响应生成的聚合偏好。我们引入了两个交互式环境——摘要和电子邮件撰写,并使用 GPT-4 模拟用户进行评估。在这两项任务上,CIPHER 通过实现最低的编辑距离成本而优于几个基线,同时LLM查询成本仅略有增加。我们的分析报告表明,CIPHER 学习到的用户偏好与真实的潜在偏好显示出显著的相似性。