LLM2D

摘要

arXiv:2502.00997v2 宣传类型: 替换-交叉摘要：近年来，专门的大规模语言模型（LLMs）在数学推理和编程等领域取得的成功，引发了对将这些专家LLM合并为统一的专家混合模型（MoE）的方法的兴趣，目标是在保持对通用任务有效性的同时，增强每个领域的性能。然而，有效地合并专家模型仍然是一个开放的挑战，尤其是对于具有高度不同权重参数或不同架构的模型。最先进的MoE合并方法仅适用于 homogeneous 模型架构，并依赖于简单的未加权平均来合并专家层，这未能解决参数干扰问题，并需要对合并的MoE进行大量的微调以恢复性能。为了解决这些限制，本文介绍了一些新的MoE合并技术，包括缓解参数干扰的策略、减少对MoE微调需求的路由启发式方法，以及一种合并具有不同架构的专家的新方法。在多个领域的广泛实验表明，我们提出的方法的有效性，减少了微调成本，改进了相对于最先进的方法的性能，并扩大了MoE合并的应用范围。