LLM2D

摘要

随着大型语言模型（LLM）根据规模法则不断发展，来自人类反馈的强化学习（RLHF）因其卓越的性能而受到广泛关注。然而，与预训练或微调单个模型不同，针对大型语言模型的来自人类反馈的强化学习（RLHF）的扩展在四个模型之间带来了协调方面的挑战。我们提出了OpenRLHF，一个支持高效RLHF扩展的开源框架。与将四个模型放在同一GPU上的现有RLHF框架不同，OpenRLHF利用Ray、vLLM和DeepSpeed，重新设计了参数超过700亿的模型调度，从而提高了资源利用率并采用了多种训练方法。OpenRLHF与Hugging Face无缝集成，提供了一个具有优化算法和启动脚本的开箱即用解决方案，确保了用户友好性。OpenRLHF实现了RLHF、DPO、拒绝采样和其他对齐技术。OpenRLHF的代码现已开源，可用于支持最先进的LLM开发，地址为\url{https://github.com/OpenRLHF/OpenRLHF}。