LLM2D

摘要

arXiv:2412.06845v3 声明类型: replace-cross 摘要：最近，大型语言模型（LLMs）经历了显著的转变，其流行度和能力迅速提升。领头的是像GPT-4和GPT-o1这样的专有LLM，它们因其出色的表现和多样性而受到人工智能社区的广泛关注。与此同时，诸如LLaMA之类的开源LLM也为LLM的不断流行做出了巨大贡献，这得益于它们的易于定制和部署。尽管开源LLM为创新和研究提供了前所未有的机会，但LLM的商业化却引发了关于透明度、可再现性和安全性的担忧。许多开源LLM未能满足基本的透明度要求，因为它们扣留了诸如训练代码和数据等关键组件，这可能阻碍对LLM的进一步创新。为解决这一问题，我们推出Moxin 7B，这是一个完全开源的LLM，我们遵循开放科学、开源、开放数据和开放访问的原则进行开发。我们发布了预训练代码和配置、训练和微调数据集以及中间和最终检查点，旨在为完全开源的LLM做出持续的承诺。在预训练并获得基础模型后，我们使用最先进的后训练框架和指令数据对Moxin Base模型进行微调，以获得Moxin Instruct模型。为了提高推理能力，我们进一步利用DeepSeek R1提取的链式思维数据对我们的Instruct模型进行微调，然后使用DeepSeek R1遵循的高效且有效的强化学习算法Group Relative Policy Optimization (GRPO)对模型进行微调，从而得到Moxin Reasoning模型。实验表明，我们的模型在零样本评估、少量样本评估和链式思维评估等各种评估中表现优异。