LLM2D
7B完全开源Moxin-LLM——从预训练到基于GRPO的强化学习增强
7B Fully Open Source Moxin-LLM -- From Pretraining to GRPO-based Reinforcement Learning Enhancement
作者: Pu Zhao, Xuan Shen, Zhenglun Kong, Yixin Shen, Sung-En Chang, Timothy Rupprecht, Lei Lu, Enfu Nan, Changdi Yang, Yumei He, Weiyan Shi, Xingchen Xu, Yu Huang, Wei Jiang, Wei Wang, Yue Chen, Yong He, Yanzhi Wang
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2412.06845v3

摘要

arXiv:2412.06845v3 声明类型: replace-cross 摘要:最近,大型语言模型(LLMs)经历了显著的转变,其流行度和能力迅速提升。领头的是像GPT-4和GPT-o1这样的专有LLM,它们因其出色的表现和多样性而受到人工智能社区的广泛关注。与此同时,诸如LLaMA之类的开源LLM也为LLM的不断流行做出了巨大贡献,这得益于它们的易于定制和部署。尽管开源LLM为创新和研究提供了前所未有的机会,但LLM的商业化却引发了关于透明度、可再现性和安全性的担忧。许多开源LLM未能满足基本的透明度要求,因为它们扣留了诸如训练代码和数据等关键组件,这可能阻碍对LLM的进一步创新。为解决这一问题,我们推出Moxin 7B,这是一个完全开源的LLM,我们遵循开放科学、开源、开放数据和开放访问的原则进行开发。我们发布了预训练代码和配置、训练和微调数据集以及中间和最终检查点,旨在为完全开源的LLM做出持续的承诺。在预训练并获得基础模型后,我们使用最先进的后训练框架和指令数据对Moxin Base模型进行微调,以获得Moxin Instruct模型。为了提高推理能力,我们进一步利用DeepSeek R1提取的链式思维数据对我们的Instruct模型进行微调,然后使用DeepSeek R1遵循的高效且有效的强化学习算法Group Relative Policy Optimization (GRPO)对模型进行微调,从而得到Moxin Reasoning模型。实验表明,我们的模型在零样本评估、少量样本评估和链式思维评估等各种评估中表现优异。