摘要
arXiv:2502.12217v1 类型: cross
摘要: 大型语言模型(LLMs)展现了令人印象深刻的性能,但其高昂的计算成本给定制化带来了挑战。模型合并提供了一种成本效益较高的替代方案,然而现有的方法由于参数间的相互干扰导致性能下降。在此工作中,我们提出了最优大脑迭代合并(OBIM),这是一种专为减轻模型内部和模型之间干扰而设计的新方法。OBIM包括两个关键组成部分:(1) 一个显著性度量机制,基于单个权重修改引起的损失变化来评估参数的重要性,通过保留高显著性参数来减少模型内部的干扰。(2) 一个互斥的迭代合并框架,该框架通过二进制掩码逐步集成模型,避免直接进行参数平均,从而减轻模型之间的干扰。我们通过在监督微调(SFT)模型和后预训练检查点上进行实验,验证了OBIM的有效性。结果表明,OBIM在合并技术方面显著优于现有的方法。总体而言,OBIM提供了一种有效且实际的解决方案,以提高LLM合并的性能。