LLM2D
MergeME:同构和异构MOE模型融合技术
MergeME: Model Merging Techniques for Homogeneous and Heterogeneous MoEs
作者: Yuhang Zhou, Giannis Karamanolakis, Victor Soto, Anna Rumshisky, Mayank Kulkarni, Furong Huang, Wei Ai, Jianhua Lu
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00997v1

摘要

arXiv:2502.00997v1 类型: cross 摘要:最近在数学推理和编程等领域中专门化的大型语言模型(LLMs)的成功,引发了对将这些专家LLMs合并到统一混合专家(MoE)模型中的方法的兴趣,目标是在增强特定领域性能的同时保持对一般任务的有效性。然而,专家模型的有效合并仍然是一个开放的挑战,特别是在权重参数高度不同或具有不同架构的情况下。当前最先进的MoE合并方法仅适用于同质模型架构,并依赖于简单的无权重平均来合并专家层,这未能解决参数干扰问题,并要求对合并的MoE进行大量微调以恢复性能。为了解决这些局限性,本文介绍了新的MoE合并技术,包括减轻参数干扰的策略、减少对MoE微调需求的路由启发式方法,以及一种用于合并不同架构专家的新方法。在多个领域的广泛实验表明,我们提出的方法的有效性,减少了微调成本,提高了相对于当前最先进的方法的性能,并扩展了MoE合并的应用范围。