摘要
arXiv:2502.12420v1 Announce Type: cross
摘要:大型语言模型的近期进展产生了大量专门任务的精细调优变体,这要求高效地合并模型的技术能够在保持专门能力的同时避免昂贵的重新训练。尽管现有的基于任务向量的合并方法显示出希望,但它们通常对所有参数使用统一的系数,忽视了在任务内部和跨任务参数的重要性差异。我们提出了一种敏感性指导的系数调整方法——Sens-Merging,该方法通过在任务特定和跨任务级别上操作,增强现有的模型合并技术。我们的方法在单一任务中分析参数的敏感性,并评估跨任务转移性,以确定最佳的合并系数。我们在Mistral 7B和LLaMA2-7B/13B模型上的广泛实验表明,Sens-Merging在一般知识、数学推理和代码生成任务中显著提高了性能。特别地,当与现有的合并技术结合使用时,我们的方法使合并模型能够优于专门的精细调优模型,特别是在代码生成任务中。我们的研究结果揭示了任务特定和跨任务缩放之间的重要权衡,为未来的模型合并策略提供了见解。