LLM2D

摘要

arXiv:2502.10698v1 Announce Type: cross 摘要：模型合并是一种关键的技术，用于结合多个微调模型的能力，而无需进行额外的训练。尽管现有方法将参数视为向量，但它们忽略了线性变换矩阵的内在结构——构成模型参数大部分的核心组件。这些矩阵是神经网络的基础，通过线性组合将输入表示映射到输出特征。受线性表示假设的启发，我们引入了任务矩阵，并提出了一种新颖的方法——任务矩阵特征叠加（SFTM），该方法将个体任务模型的特征叠加到合并模型中。SFTM 使用奇异值分解来识别线性变换矩阵的特征基，并通过求解线性系统以最优方式将它们结合在一起，同时保留个体任务模型的输入-输出映射。在视觉变换器和语言模型上的 extensive 实验表明，我们的方法在所有现有方法中表现最佳，实现了更优的性能和增强的离分布泛化能力。