LLM2D
MASS: 通过自适应子空间选择的MoE融合
MASS: MoErging through Adaptive Subspace Selection
作者: Donato Crisostomi, Alessandro Zirilli, Antonio Andrea Gargiulo, Maria Sofia Bucarelli, Simone Scardapane, Fabrizio Silvestri, Iacopo Masi, Emanuele Rodol\`a
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05342v1

摘要

arXiv:2504.05342v1 声明类型:交叉 摘要:模型合并最近已成为一种轻量级的替代解决方案,将多个细调模型合并为一个参数集,而不增加额外的训练开销。然而,现有的合并方法在任务上的准确度仍然不及单独细调的端点。我们提出了MASS(MoErging through Adaptive Subspace Selection),这是一种新的方法,通过统一多个细调模型来弥补这一差距,同时在各种任务上保留接近最先进的性能。立足于每个任务更新的低秩分解,MASS 只存储每个任务中最显著的奇异成分,并将它们合并到共享模型中。在推理时,一个非参数化的、无数据的路由器识别哪个子空间(或它们的组合)最好地解释输入的中间特征,并激活相应的特定任务块。该过程完全是无训练开销的,并且相对于单个预训练模型,仅引入两步推理开销和约2倍的存储因子,这与任务的数量无关。我们在CLIP基于的图像分类基准上对MASS进行了评估,使用ViT-B-16、ViT-B-32和ViT-L-14分别针对8、14和20个任务,确立了新的最先进的水平。最值得注意的是,MASS 恢复了单个细调模型平均准确度的高达98%,使其成为与存储成本相比非常实际的替代合集方案。