摘要
arXiv:2401.10020v3 公告类型: replace-cross
摘要: 我们认为,为了实现超人类代理,未来的模型需要超人类反馈,以便提供适当的训练信号。当前的方法通常是从人类偏好训练奖励模型,但这可能会受到人类性能水平的瓶颈限制;其次,这些单独冻结的奖励模型在LLM训练过程中无法学习改进。在本项工作中,我们研究了自我奖励的语言模型,即使用LLM作为裁判提示,让语言模型本身在训练过程中为其自身提供奖励。我们展示了,在迭代DPO训练过程中,不仅指令跟随能力得到了提高,还展示了自身提供高质量奖励的能力。对我们的方法进行三次迭代的Llama 2 70B微调后,该模型在AlpacaEval 2.0排行榜上表现出色,超过了包括Claude 2、Gemini Pro和GPT-4 0613在内的许多现有系统。尽管还有很多需要探索的地方,但这项工作为模型在两个维度上持续改进的可能性打开了大门。