LLM2D

摘要

arXiv:2412.06845v4 更新类型: replace-cross 摘要：近年来，大型语言模型（LLMs）经历了显著的转变，以其普及度和能力的快速增长为标志。引领这一演进的是如GPT-4和GPT-o1等专有LLMs，它们在人工智能社区中引起了广泛关注，这是由于它们出色的表现和多用途性。与此同时，开源LLMs，如LLaMA，通过易于定制和部署模型的功能，为LLMs的广泛普及做出了巨大贡献。尽管开源LLMs为创新和研究提供了前所未有的机会，但LLMs的商业化也引发了透明度、可再现性和安全性方面的关切。许多开源LLMs未能满足基本的透明度要求，因为它们隐瞒了训练代码和数据等关键组件，这可能阻碍进一步的LLM创新。为缓解这一问题，我们介绍了一个完全开源的LLM——Moxin 7B，该LLM遵循开放科学、开源、开放数据和开放访问的原则。我们发布了预训练代码和配置、训练和微调数据集以及中间和最终检查点，旨在持续承诺完全开源的LLM。在预训练并获得基础模型后，我们使用最先进的后训练框架和指令数据对Moxin Base模型进行微调，以获得Moxin Instruct模型。为了提高推理能力，我们进一步使用来自DeepSeek R1的链式思维数据对Instruct模型进行微调，并使用DeepSeek R1遵循的高效且有效的强化学习算法——Group Relative Policy Optimization（GRPO）对模型进行微调，从而得到Moxin Reasoning模型。实验表明，我们的模型在零样本评估、少样本评估和链式思维评估等各种评估中都表现出优越的性能。