LLM2D

摘要

arXiv:2401.10020v3 公告类型: replace-cross 摘要: 我们认为，为了实现超人类代理，未来的模型需要超人类反馈，以便提供适当的训练信号。当前的方法通常是从人类偏好训练奖励模型，但这可能会受到人类性能水平的瓶颈限制；其次，这些单独冻结的奖励模型在LLM训练过程中无法学习改进。在本项工作中，我们研究了自我奖励的语言模型，即使用LLM作为裁判提示，让语言模型本身在训练过程中为其自身提供奖励。我们展示了，在迭代DPO训练过程中，不仅指令跟随能力得到了提高，还展示了自身提供高质量奖励的能力。对我们的方法进行三次迭代的Llama 2 70B微调后，该模型在AlpacaEval 2.0排行榜上表现出色，超过了包括Claude 2、Gemini Pro和GPT-4 0613在内的许多现有系统。尽管还有很多需要探索的地方，但这项工作为模型在两个维度上持续改进的可能性打开了大门。