摘要
arXiv:2502.04411v1 宣布类型: cross
摘要: 模型合并将具有不同任务微调的大型语言模型(LLMs)聚合为一个更强的模型。然而,模型参数之间的冲突导致平均过程中的性能下降。尽管通过选择个别模型来避免这种问题可以解决此问题,但在推理过程中会引发过高的存储和计算成本,并且无法利用不同模型的共同知识。在本工作中,我们观察到不同的层表现出不同水平的参数冲突。基于这一洞察,我们将参数冲突较少的层进行平均,并使用一种新颖的任务级专家路由来处理具有显著冲突的层。为了进一步减少存储成本,借鉴任务算术稀疏性的理念,我们将多个微调专家解耦为一个密集专家和若干稀疏专家。考虑到离分布样本,我们根据输入数据的任务不确定性选择并合并合适的专家。我们在不同的参数规模下对LLaMA和Qwen进行了广泛的实验,并在现实世界的推理任务上进行了评估。结果表明,与现有方法相比,我们的方法在系统成本较低的情况下,能够实现显著的性能提升。