摘要
模型合并旨在将多个专家模型合并成一个更强大的单一模型,这带来了许多好处,例如降低存储和服务成本、提高泛化能力以及支持分散的模型开发。尽管前景光明,但之前的研究主要集中在合并少数小型模型上。这留下了许多关于模型规模扩展的影响以及它如何与其他关键因素(例如基础模型质量和专家模型数量)相互作用以影响合并模型性能的未解之谜。本研究系统地评估了大规模模型合并的效用,检验了这些不同因素的影响。我们使用 4 种流行的合并方法(平均、任务算术、Dare 和 TIES)对完全微调的模型进行合并实验,模型大小范围从 1B 到 64B 个参数,最多合并 8 个不同的专家模型。我们评估了合并模型在专家训练任务(即保持任务)和对未见保持任务的零样本泛化能力方面的表现。我们的实验提供了关于大规模模型合并以及不同因素之间相互作用的几个新见解。首先,我们发现当专家模型来自强大的基础模型(即在零样本性能方面表现良好的模型)时,合并更有效。其次,更大的模型更容易合并。第三,合并始终提高泛化能力。值得注意的是,当合并 8 个大型专家模型时,合并模型的泛化能力通常比多任务训练模型更好。第四,当使用更大的模型时,我们可以更好地合并更多专家模型。第五,不同的合并方法在更大的规模上表现非常相似。总的来说,我们的发现揭示了模型合并的一些有趣特性,同时也强调了一些局限性。我们希望这项研究能成为未来研究大规模合并的参考点。