LLM2D

摘要

arXiv:2502.00997v2 声明类型: cross 摘要：近年来，专门针对数学推理和编程领域的大型语言模型（LLMs）的成功促使人们越来越关注如何将这些专家级LLMs融合成一个统一的混合专家（MoE）模型的方法，目的在于提高各个领域的性能，同时在通用任务上保持有效性。然而，有效地融合专家模型仍然是一个开放的研究挑战，尤其是对于具有高度不同权重参数或不同架构的模型。最先进的MoE融合方法只能处理同构模型架构，并依赖简单的加权平均来合并专家层，这种方法不能解决参数干扰问题，还需要对融合后的MoE进行大量微调以恢复性能。为了克服这些局限性，本文引入了新的MoE融合技术，包括减轻参数干扰的策略、减少对MoE微调需求的路由启发式方法，以及一种用于合并具有不同架构专家的新方法。在多个领域的广泛实验表明，我们提出的方法具有有效性，减少了微调成本，提高了性能，优于最先进的方法，并扩大了MoE融合的应用范围。