LLM2D
GPT 进阶:训练定制基础模型可能简单、高效且经济
GPT Carry-On: Training Foundation Model for Customization Could Be Simple, Scalable and Affordable
作者: Jianqiao Wangni
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2504.07513v1

摘要

arXiv:2504.07513v1 宣告类型: cross 摘要: 现代大型语言基础模型(LLM)现在已经进入了数百万用户的日常生活中。我们提出一个自然的问题,是否可以为每个用户或每个任务定制LLM。从系统和产业经济的角度考虑,通用的持续训练或微调仍然需要大量的计算和训练GPU节点的内存资源,而正在部署的大批推理节点,可能配备低端显卡,被配置为尽可能快速地进行前向传播。我们提出了一种框架,充分利用现有的在线服务的LLM和系统。我们基于预训练LLM的最终层嵌入训练了一个额外的变压器块分支,作为基础,然后通过一个后续模块将基础模型组合成一个定制的LLM。我们可以混合多个层,或者多个专门针对不同领域(如聊天、编程、数学)的LLM,形成一个最适合新任务的新LLM混合体。由于基础模型不需要更新参数,我们可以在推理节点上外包大部分训练任务的计算工作,只在训练节点上训练一个轻量级的后续模块,在训练节点上通过消耗不到1GB的GPU内存,可以在一个30B LLM上训练一个100M参数的后续层。我们使用Qwen和DeepSeek开源模型进行持续预训练,取得了更快的损失收敛。我们利用它来改进了解决数学问题,使用极小的计算量和模型大小,在1000个带有思考链的数据样本上取得了令人鼓舞的结果,并且两个层的后续模块仅包含1 MB参数。