LLM2D

摘要

arXiv:2502.10339v1 类型:交叉摘要:模型合并是一种从多个预训练模型获得一个多任务模型的有效方法，而不需要进一步微调，并且在包括自然语言处理(NLP)在内的各种领域引起了关注。尽管模型合并具有高效性，但随着模型数量的增加，任务性能似乎不可避免地会下降。在本文中，我们提出了一种名为$\mathbf{S}$pectral $\mathbf{T}$runcation $\mathbf{A}$nd $\mathbf{R}$escale (STAR)的方法，旨在通过在各自的谱空间中截断小型组件来缓解“合并冲突”，随后采用一种自动参数缩放方案以保留原始矩阵的核范数。STAR不需要在原始训练数据上进行额外推断，并且对超参数选择具有鲁棒性。我们通过在多种NLP任务中进行广泛的模型合并案例，展示了STAR的有效性。具体而言，STAR在合并12个模型时，在Flan-T5上可以比基线高出4.2%。我们的代码可在https://github.com/IBM/STAR公开获取。