LLM2D

摘要

arXiv:2504.05342v1 声明类型：交叉摘要：模型合并最近已成为一种轻量级的替代解决方案，将多个细调模型合并为一个参数集，而不增加额外的训练开销。然而，现有的合并方法在任务上的准确度仍然不及单独细调的端点。我们提出了MASS（MoErging through Adaptive Subspace Selection），这是一种新的方法，通过统一多个细调模型来弥补这一差距，同时在各种任务上保留接近最先进的性能。立足于每个任务更新的低秩分解，MASS 只存储每个任务中最显著的奇异成分，并将它们合并到共享模型中。在推理时，一个非参数化的、无数据的路由器识别哪个子空间（或它们的组合）最好地解释输入的中间特征，并激活相应的特定任务块。该过程完全是无训练开销的，并且相对于单个预训练模型，仅引入两步推理开销和约2倍的存储因子，这与任务的数量无关。我们在CLIP基于的图像分类基准上对MASS进行了评估，使用ViT-B-16、ViT-B-32和ViT-L-14分别针对8、14和20个任务，确立了新的最先进的水平。最值得注意的是，MASS 恢复了单个细调模型平均准确度的高达98%，使其成为与存储成本相比非常实际的替代合集方案。