LLM2D

摘要

arXiv:2502.12420v2 交叉类型公告：摘要：大型语言模型的最新进展导致了众多任务特化的微调变体的出现，从而产生了高效模型合并技术的需求，这些技术可以在保持特化能力的同时避免昂贵的重新训练。尽管现有的基于任务向量的合并方法前景良好，但它们通常在所有参数上应用统一的系数，忽视了参数在任务内部和之间的重要性差异。我们提出了Sens-Merging，这是一种由敏感性引导的系数调整方法，该方法通过任务特定和跨任务两个层面增强了现有的模型合并技术。我们的方法在单个任务的参数敏感性分析和跨任务的转移性评估的基础上，确定了最优的合并系数。在Mistral 7B和LLaMA2-7B/13B模型上的广泛实验显示，Sens-Merging 显著提高了一般知识、数学推理和代码生成任务的性能。值得注意的是，当与现有的合并技术结合使用时，我们的方法能够使合并模型在代码生成任务中超越专门的微调模型。我们的研究结果揭示了任务特定和跨任务缩放之间的关键权衡，为未来的模型合并策略提供了见解。