LLM2D

摘要

arXiv:2412.04144v3 通知类型: 替换-交叉摘要：模型合并已经在联合专家模型方面展示了巨大的潜力，但在合并训练了多个任务的“通才”模型时，合并的好处尚不明确。我们通过重新利用在不同任务之间表现出权衡的检查点，探索了大规模（约100B）模型的合并。这类检查点往往是在开发前沿模型的过程中创建的，其中的一些次优检查点通常会被丢弃。给定来自不同训练运行的模型检查点池（例如，不同阶段、目标、超参数和数据混合），这些检查点在不同语言能力方面自然表现出权衡（例如，指令遵循 vs. 代码生成），我们研究了合并是否能够将这些次优模型回收到一个帕累托最优模型中。我们的优化算法在线性组合中调整每个检查点的权重，从而生成一个优于单独模型和基于合并的基线模型的最优模型。进一步的分析表明，有效的合并通常包括几乎所有非零权重的检查点，这表明即使是最初看起来较差的检查点也可以对最终的合并做出贡献。