LLM2D

摘要

arXiv:2412.13335v3 宣告类型: replace-cross 摘要：预训练大型语言模型是一个受多个因素影响的复杂工程，包括模型架构、数据质量、训练连续性和硬件限制。在这篇论文中，我们分享了训练DMaS-LLaMa-Lite的经验，DMaS-LLaMa-Lite是一个完全开源的，包含17亿参数的LLaMa基模型，使用大约200亿个精心筛选的数据令牌。我们详细记录了整个训练轨迹，说明了随时间推移的验证损失水平和下游基准测试如何反映从不连贯的文本转变为流畅、语境相关输出的过程。除了预训练之外，我们还将分析扩展到包括后训练阶段，该阶段重点进行指令调优，使模型能够生成更上下文相关，并符合用户需求的响应。我们强调了实用的考虑因素，例如从检查点恢复优化器状态的重要性，以及硬件变化对训练稳定性和吞吐量的影响。虽然定性的评估提供了对模型改进的直观理解，但我们的分析还延伸到各种性能基准测试，证明了高质量数据和仔细的扩展如何使训练数据显著减少时仍能获得具有竞争力的结果。通过详细阐述这些经验，并提供训练脚本、检查点和样本输出，我们旨在引导未来的研究人员和从业人员改进他们的预训练策略。训练脚本可在GitHub上获取，网址为https://github.com/McGill-DMaS/DMaS-LLaMa-Lite-Training-Code。模型检查点可在Huggingface上获取，网址为https://huggingface.co/collections/McGill-DMaS/dmas-llama-lite-6761d97ba903f82341954ceb。