摘要
arXiv:2502.00997v2 声明类型: cross
摘要:近年来,专门针对数学推理和编程领域的大型语言模型(LLMs)的成功促使人们越来越关注如何将这些专家级LLMs融合成一个统一的混合专家(MoE)模型的方法,目的在于提高各个领域的性能,同时在通用任务上保持有效性。然而,有效地融合专家模型仍然是一个开放的研究挑战,尤其是对于具有高度不同权重参数或不同架构的模型。最先进的MoE融合方法只能处理同构模型架构,并依赖简单的加权平均来合并专家层,这种方法不能解决参数干扰问题,还需要对融合后的MoE进行大量微调以恢复性能。为了克服这些局限性,本文引入了新的MoE融合技术,包括减轻参数干扰的策略、减少对MoE微调需求的路由启发式方法,以及一种用于合并具有不同架构专家的新方法。在多个领域的广泛实验表明,我们提出的方法具有有效性,减少了微调成本,提高了性能,优于最先进的方法,并扩大了MoE融合的应用范围。