LLM2D
谱截断与重塑缩放用于模型融合
STAR: Spectral Truncation and Rescale for Model Merging
作者: Yu-Ang Lee, Ching-Yun Ko, Tejaswini Pedapati, I-Hsin Chung, Mi-Yen Yeh, Pin-Yu Chen
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.10339v1

摘要

arXiv:2502.10339v1 类型:交叉 摘要:模型合并是一种从多个预训练模型获得一个多任务模型的有效方法,而不需要进一步微调,并且在包括自然语言处理(NLP)在内的各种领域引起了关注。尽管模型合并具有高效性,但随着模型数量的增加,任务性能似乎不可避免地会下降。在本文中,我们提出了一种名为$\mathbf{S}$pectral $\mathbf{T}$runcation $\mathbf{A}$nd $\mathbf{R}$escale (STAR)的方法,旨在通过在各自的谱空间中截断小型组件来缓解“合并冲突”,随后采用一种自动参数缩放方案以保留原始矩阵的核范数。STAR不需要在原始训练数据上进行额外推断,并且对超参数选择具有鲁棒性。我们通过在多种NLP任务中进行广泛的模型合并案例,展示了STAR的有效性。具体而言,STAR在合并12个模型时,在Flan-T5上可以比基线高出4.2%。我们的代码可在https://github.com/IBM/STAR公开获取。