摘要
arXiv:2412.04144v3 宣布类型: replace-cross
摘要:模型合并已经在结合专家模型方面展示了极大的潜力,但在合并“通才”模型(这些模型在多个任务上进行训练)时,合并的好处尚不明确。我们通过在大型(约100B)模型的背景下探索合并方式,来研究合并问题,这些模型经常在开发前沿模型的过程中产生,而性能不佳的模型通常会被丢弃。给定一个不同训练运行(例如不同阶段、目标、超参数和数据混合)中获得的模型检查点池,这些检查点在不同的语言能力方面通常表现出权衡(例如指令遵循 vs 代码生成),我们探讨是否可以将这些性能不佳的模型合并成一个帕累托最优模型。我们的优化算法调整线性组合中每个检查点的权重,从而生成一个优于个体模型和基线合并模型的最优模型。进一步的分析显示,好的合并往往包括几乎所有具有非零权重的检查点,这表明即使看似初始性能不佳的检查点,也可以对最终的合并模型做出贡献。