LLM2D

摘要

arXiv:2503.23362v1公告类型：交叉摘要：监督微调（SFT）是将大型语言模型与人类指令对齐并适应下游任务的一个里程碑。特别是，低秩适应（LoRA）因其参数效率而受到广泛关注。然而，LoRA 对提高大型模型性能的影响仍然有限。最近的研究表明，将LoRA 与专家混合（Mixture-of-Experts, MoE）结合可以显著增强微调性能。MoE 通过动态选择最合适的专家来适应数据集的多样性和复杂性，从而提高任务准确性和效率。尽管取得了令人印象深刻的成果，但最近的研究揭示了 MoE 路由机制中的问题，如错误分配和专家分配不平衡。受冗余与容错理论原则的启发，我们创新地将专家混合的概念融入路由机制，并提出了一种高效的微调方法，称为专家混合（Mixture of Routers, MoR）。MoR 使用多个子路由器进行联合选择，并使用可学习的主要路由器来确定子路由器的权重。结果显示，MoR 在大多数任务上的性能优于基线模型，平均性能改进为 1%。MoR 可以作为一种插拔即用、参数高效的微调方法，适用于广泛的应用。我们的代码可在以下链接获取：https://anonymous.4open.science/r/MoR-DFC6。