LLM2D

摘要

arXiv:2504.07513v1 宣告类型: cross 摘要: 现代大型语言基础模型（LLM）现在已经进入了数百万用户的日常生活中。我们提出一个自然的问题，是否可以为每个用户或每个任务定制LLM。从系统和产业经济的角度考虑，通用的持续训练或微调仍然需要大量的计算和训练GPU节点的内存资源，而正在部署的大批推理节点，可能配备低端显卡，被配置为尽可能快速地进行前向传播。我们提出了一种框架，充分利用现有的在线服务的LLM和系统。我们基于预训练LLM的最终层嵌入训练了一个额外的变压器块分支，作为基础，然后通过一个后续模块将基础模型组合成一个定制的LLM。我们可以混合多个层，或者多个专门针对不同领域（如聊天、编程、数学）的LLM，形成一个最适合新任务的新LLM混合体。由于基础模型不需要更新参数，我们可以在推理节点上外包大部分训练任务的计算工作，只在训练节点上训练一个轻量级的后续模块，在训练节点上通过消耗不到1GB的GPU内存，可以在一个30B LLM上训练一个100M参数的后续层。我们使用Qwen和DeepSeek开源模型进行持续预训练，取得了更快的损失收敛。我们利用它来改进了解决数学问题，使用极小的计算量和模型大小，在1000个带有思考链的数据样本上取得了令人鼓舞的结果，并且两个层的后续模块仅包含1 MB参数。