LLM2D
开放式强化学习自对齐框架:易用、可扩展且高性能
OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework
作者: Jian Hu, Xibin Wu, Zilin Zhu, Xianyu, Weixun Wang, Dehao Zhang, Yu Cao
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2405.11143v4

摘要

随着大型语言模型(LLM)根据规模法则不断发展,来自人类反馈的强化学习(RLHF)因其卓越的性能而受到广泛关注。然而,与预训练或微调单个模型不同,针对大型语言模型的来自人类反馈的强化学习(RLHF)的扩展在四个模型之间带来了协调方面的挑战。我们提出了OpenRLHF,一个支持高效RLHF扩展的开源框架。与将四个模型放在同一GPU上的现有RLHF框架不同,OpenRLHF利用Ray、vLLM和DeepSpeed,重新设计了参数超过700亿的模型调度,从而提高了资源利用率并采用了多种训练方法。OpenRLHF与Hugging Face无缝集成,提供了一个具有优化算法和启动脚本的开箱即用解决方案,确保了用户友好性。OpenRLHF实现了RLHF、DPO、拒绝采样和其他对齐技术。OpenRLHF的代码现已开源,可用于支持最先进的LLM开发,地址为\url{https://github.com/OpenRLHF/OpenRLHF}。