摘要
arXiv:2503.20110v1 交叉公告类型:cross
摘要:现代大规模语言模型在高效更新方面面临挑战,每次新的预训练模型版本都需要重复昂贵的对齐过程。这一挑战同样适用于领域特定或语言特定的模型,其中,对专门数据进行微调必须在每次发布新基础模型版本时重新进行。在这篇论文中,我们探讨了不同模型版本之间微调更新的转移。具体来说,我们从一个源模型版本中推导出差分向量,该向量代表微调的权重变化,并将其应用于不同目标版本的基础模型。通过对多种开源模型版本进行实验评估,我们展示了转移差分向量可以显著提高目标基础模型的性能,通常能达到与其微调版本相当的性能。例如,使用Llama 3.0 8B的微调更新在GPQA上的绝对准确性提高了10.7%,而在不进行额外训练的情况下超过了Llama 3.1 8B Instruct。在多语言模型开发环境中,我们展示了这种方法可以在不重新训练的情况下显著提高目标语言任务的性能,分别在马达加斯加语和土耳其语的Global MMLU上实现了4.7%和15.5%的绝对性能提升,相较于Llama 3.1 8B Instruct。我们的受控实验表明,当源模型和目标模型在参数空间中呈线性连接时,微调转移最为有效。此外,我们证明了微调转移为进一步微调提供了更强且更计算高效的起点。最后,我们提出了迭代回收再微调的方法,用于持续模型开发,该方法提高了效率和效果。我们的研究结果表明,微调转移是一种可行的策略,可以降低训练成本同时保持模型性能。