LLM2D

摘要

arXiv:2502.12217v1 类型: cross 摘要: 大型语言模型（LLMs）展现了令人印象深刻的性能，但其高昂的计算成本给定制化带来了挑战。模型合并提供了一种成本效益较高的替代方案，然而现有的方法由于参数间的相互干扰导致性能下降。在此工作中，我们提出了最优大脑迭代合并（OBIM），这是一种专为减轻模型内部和模型之间干扰而设计的新方法。OBIM包括两个关键组成部分：(1) 一个显著性度量机制，基于单个权重修改引起的损失变化来评估参数的重要性，通过保留高显著性参数来减少模型内部的干扰。(2) 一个互斥的迭代合并框架，该框架通过二进制掩码逐步集成模型，避免直接进行参数平均，从而减轻模型之间的干扰。我们通过在监督微调（SFT）模型和后预训练检查点上进行实验，验证了OBIM的有效性。结果表明，OBIM在合并技术方面显著优于现有的方法。总体而言，OBIM提供了一种有效且实际的解决方案，以提高LLM合并的性能。