LLM2D
异步RLHF:更快更高效的离策语言模型 reinforcement 学习
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models
作者: Michael Noukhovitch, Shengyi Huang, Sophie Xhonneux, Arian Hosseini, Rishabh Agarwal, Aaron Courville
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2410.18252v3

摘要

arXiv:2410.18252v3 声明类型: replace-cross 摘要:目前RLHF(人类反馈强化学习)的主要范式是在线和在线学习:同步从大型语言模型(LLM)策略生成内容,使用奖励模型进行标注,并利用反馈对LLM的输出进行学习。尽管这一范式表现良好,但它在计算上效率低下。受经典深度强化学习文献的启发,我们提出在RLHF中分离生成和学习。这使得可以异步生成新的样本的同时对旧样本进行训练,从而加快训练速度并实现更优的计算效率扩展。然而,异步训练依赖于一个尚未充分探索的领域:在线但离线的RLHF:在前几轮模型生成的样本上进行学习,而这些样本提供的训练信号较差。我们解决了这一领域的基本挑战:我们能容忍多少离策行为以加速学习但仍保持性能?在测试的多个RLHF算法中,发现在线DPO在离策数据上表现最稳健,稳健性随策略模型规模的增大而增加。我们进一步研究了异步RLHF的计算优化,但发现这些优化会带来性能代价,从而产生了一个权衡。我们通过训练LLaMA 3.1 8B,在指令跟随任务上比同步训练快约40%,同时最终性能相当,验证了异步RLHF的可扩展性。最后,我们将结果扩展到数学和推理领域,展示了异步RL可以将Rho 1B在GSM8k上进行微调,比同步训练快约70%,同时保持相同的准确性。