LLM2D

摘要

arXiv:2501.02068v3 公告类型: replace-cross 摘要：语言模型的标度法则通常集中在寻找从头开始训练时的最佳模型大小和标记数。然而，实现这种最佳平衡需要大量的计算资源，因为从随机初始化的权重开始训练模型需要大量的数据。继续进行预训练提供了一种成本效益较高的替代方案，利用预训练模型的计算投资来引入新知识，而无需大量新的数据。最近的研究表明，数据质量影响标度法则中的常数，从而改变最优参数-标记分配比例。在此见解的基础上，我们研究了计算受限场景下持续预训练期间学科专业化和模型大小之间的相互作用。我们的目标是在这种情况下确定一个最佳训练制度，并检测可以跨不同模型大小和学科推广的这种相互作用的模式。为了比较通用和专业化的训练，我们过滤了一个基于网络的数据集，从中提取了三个学科的数据：法律、医疗和会计。我们使用1.5B、3B、7B和14B参数对未经筛选和筛选后的数据集进行了预训练，然后在特定学科的考试中评估它们的性能。结果显示，随着模型大小的增加，专业化的模型在训练计算量较少的情况下优于通用模型。此外，其不断增长的计算效率导致对先前学习知识的遗忘减少。