摘要
arXiv:2412.06845v4 更新类型: replace-cross
摘要:近年来,大型语言模型(LLMs)经历了显著的转变,以其普及度和能力的快速增长为标志。引领这一演进的是如GPT-4和GPT-o1等专有LLMs,它们在人工智能社区中引起了广泛关注,这是由于它们出色的表现和多用途性。与此同时,开源LLMs,如LLaMA,通过易于定制和部署模型的功能,为LLMs的广泛普及做出了巨大贡献。尽管开源LLMs为创新和研究提供了前所未有的机会,但LLMs的商业化也引发了透明度、可再现性和安全性方面的关切。许多开源LLMs未能满足基本的透明度要求,因为它们隐瞒了训练代码和数据等关键组件,这可能阻碍进一步的LLM创新。为缓解这一问题,我们介绍了一个完全开源的LLM——Moxin 7B,该LLM遵循开放科学、开源、开放数据和开放访问的原则。我们发布了预训练代码和配置、训练和微调数据集以及中间和最终检查点,旨在持续承诺完全开源的LLM。在预训练并获得基础模型后,我们使用最先进的后训练框架和指令数据对Moxin Base模型进行微调,以获得Moxin Instruct模型。为了提高推理能力,我们进一步使用来自DeepSeek R1的链式思维数据对Instruct模型进行微调,并使用DeepSeek R1遵循的高效且有效的强化学习算法——Group Relative Policy Optimization(GRPO)对模型进行微调,从而得到Moxin Reasoning模型。实验表明,我们的模型在零样本评估、少样本评估和链式思维评估等各种评估中都表现出优越的性能。