摘要
arXiv:2503.23362v1公告类型:交叉
摘要:监督微调(SFT)是将大型语言模型与人类指令对齐并适应下游任务的一个里程碑。特别是,低秩适应(LoRA)因其参数效率而受到广泛关注。然而,LoRA 对提高大型模型性能的影响仍然有限。最近的研究表明,将LoRA 与专家混合(Mixture-of-Experts, MoE)结合可以显著增强微调性能。MoE 通过动态选择最合适的专家来适应数据集的多样性和复杂性,从而提高任务准确性和效率。尽管取得了令人印象深刻的成果,但最近的研究揭示了 MoE 路由机制中的问题,如错误分配和专家分配不平衡。受冗余与容错理论原则的启发,我们创新地将专家混合的概念融入路由机制,并提出了一种高效的微调方法,称为专家混合(Mixture of Routers, MoR)。MoR 使用多个子路由器进行联合选择,并使用可学习的主要路由器来确定子路由器的权重。结果显示,MoR 在大多数任务上的性能优于基线模型,平均性能改进为 1%。MoR 可以作为一种插拔即用、参数高效的微调方法,适用于广泛的应用。我们的代码可在以下链接获取:https://anonymous.4open.science/r/MoR-DFC6。