摘要
大型语言模型 (LLM) 在诸如摘要之类的单轮交互任务中取得了显著的成功。然而,它们在需要长期规划的多轮任务(如对话)中仍然面临挑战。先前关于多轮对话的研究将单轮从人类反馈中进行强化学习 (RLHF) 的方法扩展到多轮设置,将所有先前的对话轮次视为一个长上下文。这种方法存在协变量偏移问题:训练集中对话的先前轮次由某个参考策略生成,这意味着低训练误差不一定对应于学习者实际参与对话循环时的良好性能。为了解决这个问题,我们引入了回归相对未来 (REFUEL),这是一种高效的策略优化方法,旨在解决 LLM 中的多轮 RLHF 问题。REFUEL 使用单个模型来估计 Q 值并在自生成数据上进行训练,从而解决了协变量偏移问题。REFUEL 将多轮 RLHF 问题构建为一系列对迭代收集的数据集进行的回归任务,从而易于实现。从理论上讲,我们证明了 REFUEL 可以匹配训练集中涵盖的任何策略的性能。在经验上,我们通过使用 Llama-3.1-70B-it 模拟用户与我们的模型进行对话来评估我们的算法。REFUEL 在各种设置中始终优于 DPO 和 REBEL 等最先进的方法。此外,尽管只有 80 亿个参数,但使用 REFUEL 微调的 Llama-3-8B-it 在长多轮对话中优于 Llama-3.1-70B-it。REFUEL 的实现可以在 https://github.com/ZhaolinGao/REFUEL/ 中找到,使用 REFUEL 训练的模型可以在 https://huggingface.co/Cornell-AGI 中找到。