摘要
arXiv:2502.00997v3 宣布类型: replace-cross
摘要:近年来,专门的大型语言模型(LLMs)在数学推理和编程等领域取得的成功,引发了将这些专家级LLMs合并为一个统一的专家混合模型(MoE)的兴趣,目标是在每个领域增强性能的同时,保持对通用任务的有效性。然而,有效地合并专家模型仍然是一个开放性挑战,尤其是对于具有高度不同权重参数或不同架构的模型。目前最先进的MoE合并方法只能处理同构模型架构,并依赖于简单的未加权平均来合并专家层,这种方法无法解决参数干扰,并且需要对合并的MoE进行大量微调以恢复性能。为了解决这些限制,本论文介绍了新的MoE合并技术,包括缓解参数干扰的策略、减少MoE微调需求的路由启发式方法以及一种合并具有不同架构专家的新方法。在多个领域的广泛实验表明,我们提出的方法有效,减少了微调成本,提高了相对于最先进的方法的性能,并扩展了MoE合并的应用范围。