LLM2D

摘要

arXiv:2410.18252v3 声明类型: replace-cross 摘要：目前RLHF（人类反馈强化学习）的主要范式是在线和在线学习：同步从大型语言模型（LLM）策略生成内容，使用奖励模型进行标注，并利用反馈对LLM的输出进行学习。尽管这一范式表现良好，但它在计算上效率低下。受经典深度强化学习文献的启发，我们提出在RLHF中分离生成和学习。这使得可以异步生成新的样本的同时对旧样本进行训练，从而加快训练速度并实现更优的计算效率扩展。然而，异步训练依赖于一个尚未充分探索的领域：在线但离线的RLHF：在前几轮模型生成的样本上进行学习，而这些样本提供的训练信号较差。我们解决了这一领域的基本挑战：我们能容忍多少离策行为以加速学习但仍保持性能？在测试的多个RLHF算法中，发现在线DPO在离策数据上表现最稳健，稳健性随策略模型规模的增大而增加。我们进一步研究了异步RLHF的计算优化，但发现这些优化会带来性能代价，从而产生了一个权衡。我们通过训练LLaMA 3.1 8B，在指令跟随任务上比同步训练快约40%，同时最终性能相当，验证了异步RLHF的可扩展性。最后，我们将结果扩展到数学和推理领域，展示了异步RL可以将Rho 1B在GSM8k上进行微调，比同步训练快约70%，同时保持相同的准确性。