LLM2D

摘要

arXiv:2407.12665v3 公告类型：替换交叉摘要：大型语言模型（LLMs）的训练成本高昂已成为下一代LLMs发展的重大瓶颈。在本文中，我们展示了可以在不牺牲性能的情况下显著降低LLMs的训练成本。具体来说，我们引入了LLMs的块级训练方法，即将多个令牌聚合为一个高信息密度单元，称为“块”，作为训练LLMs的基本文本单元。在块级训练过程中，我们向语言模型提供较短的块序列，并训练其预测下一个块，从而以显著降低的成本处理大部分训练数据。随后，模型在剩余的训练数据上继续进行令牌级训练，以与推理模式对齐。在不同规模（370M-2.7B参数）的多种模型上进行的实验表明，块级训练可以将整体训练成本降低至0.5倍，且与令牌级训练相比，不会牺牲模型性能。源代码：https://github.com/shaochenze/PatchTrain。