LLM2D
将奇异特征叠加以实现模型合并
Superpose Singular Features for Model Merging
作者: Haiquan Qiu, You Wu, Quanming Yao
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.10698v1

摘要

arXiv:2502.10698v1 Announce Type: cross 摘要:模型合并是一种关键的技术,用于结合多个微调模型的能力,而无需进行额外的训练。尽管现有方法将参数视为向量,但它们忽略了线性变换矩阵的内在结构——构成模型参数大部分的核心组件。这些矩阵是神经网络的基础,通过线性组合将输入表示映射到输出特征。受线性表示假设的启发,我们引入了任务矩阵,并提出了一种新颖的方法——任务矩阵特征叠加(SFTM),该方法将个体任务模型的特征叠加到合并模型中。SFTM 使用奇异值分解来识别线性变换矩阵的特征基,并通过求解线性系统以最优方式将它们结合在一起,同时保留个体任务模型的输入-输出映射。在视觉变换器和语言模型上的 extensive 实验表明,我们的方法在所有现有方法中表现最佳,实现了更优的性能和增强的离分布泛化能力。