LLM2D
超越下一个令牌预测:大型语言模型的patches级训练
Beyond Next Token Prediction: Patch-Level Training for Large Language Models
作者: Chenze Shao, Fandong Meng, Jie Zhou
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2407.12665v3

摘要

arXiv:2407.12665v3 公告类型:替换交叉 摘要:大型语言模型(LLMs)的训练成本高昂已成为下一代LLMs发展的重大瓶颈。在本文中,我们展示了可以在不牺牲性能的情况下显著降低LLMs的训练成本。具体来说,我们引入了LLMs的块级训练方法,即将多个令牌聚合为一个高信息密度单元,称为“块”,作为训练LLMs的基本文本单元。在块级训练过程中,我们向语言模型提供较短的块序列,并训练其预测下一个块,从而以显著降低的成本处理大部分训练数据。随后,模型在剩余的训练数据上继续进行令牌级训练,以与推理模式对齐。在不同规模(370M-2.7B参数)的多种模型上进行的实验表明,块级训练可以将整体训练成本降低至0.5倍,且与令牌级训练相比,不会牺牲模型性能。源代码:https://github.com/shaochenze/PatchTrain。