摘要
大型语言模型 (LLMs) 在众多自然语言处理 (NLP) 任务中展现出显著的效能。指令微调作为一种成功的范式,增强了 LLMs 遵循自然语言指令的能力,并在通用任务中展现出强大的泛化能力。然而,由于模型容量受限,这些模型在跨多个任务时往往会遇到性能限制。在指令微调阶段扩展模型容量面临着重大挑战。为了解决这个问题,我们引入了参数高效稀疏性构造 (PESC),该方法使用专家混合 (MoE) 架构将密集模型构造为稀疏模型。PESC 将适配器集成到稀疏模型的 MoE 层中,在不改变这些层中各个权重的同时区分专家。该方法显著降低了计算成本和 GPU 内存需求,通过最小化参数增加来促进模型容量扩展,同时保证了与原始稀疏升级相比,函数空间中的近似质量。我们的实证评估证明了 PESC 方法的有效性。在指令微调期间使用 PESC,我们最好的稀疏模型优于其他稀疏和密集模型,并展现出比 GPT-3.5 更好的通用能力。我们的代码可在 https://github.com/wuhy68/Parameter-Efficient-MoE 获取。