LLM2D

摘要

arXiv:2502.00997v1 类型: cross 摘要：最近在数学推理和编程等领域中专门化的大型语言模型（LLMs）的成功，引发了对将这些专家LLMs合并到统一混合专家（MoE）模型中的方法的兴趣，目标是在增强特定领域性能的同时保持对一般任务的有效性。然而，专家模型的有效合并仍然是一个开放的挑战，特别是在权重参数高度不同或具有不同架构的情况下。当前最先进的MoE合并方法仅适用于同质模型架构，并依赖于简单的无权重平均来合并专家层，这未能解决参数干扰问题，并要求对合并的MoE进行大量微调以恢复性能。为了解决这些局限性，本文介绍了新的MoE合并技术，包括减轻参数干扰的策略、减少对MoE微调需求的路由启发式方法，以及一种用于合并不同架构专家的新方法。在多个领域的广泛实验表明，我们提出的方法的有效性，减少了微调成本，提高了相对于当前最先进的方法的性能，并扩展了MoE合并的应用范围。