摘要
arXiv:2502.00997v2 宣传类型: 替换-交叉
摘要:近年来,专门的大规模语言模型(LLMs)在数学推理和编程等领域取得的成功,引发了对将这些专家LLM合并为统一的专家混合模型(MoE)的方法的兴趣,目标是在保持对通用任务有效性的同时,增强每个领域的性能。然而,有效地合并专家模型仍然是一个开放的挑战,尤其是对于具有高度不同权重参数或不同架构的模型。最先进的MoE合并方法仅适用于 homogeneous 模型架构,并依赖于简单的未加权平均来合并专家层,这未能解决参数干扰问题,并需要对合并的MoE进行大量的微调以恢复性能。为了解决这些限制,本文介绍了一些新的MoE合并技术,包括缓解参数干扰的策略、减少对MoE微调需求的路由启发式方法,以及一种合并具有不同架构的专家的新方法。在多个领域的广泛实验表明,我们提出的方法的有效性,减少了微调成本,改进了相对于最先进的方法的性能,并扩大了MoE合并的应用范围。