LLM2D

摘要

arXiv:2502.04411v1 宣布类型: cross 摘要: 模型合并将具有不同任务微调的大型语言模型（LLMs）聚合为一个更强的模型。然而，模型参数之间的冲突导致平均过程中的性能下降。尽管通过选择个别模型来避免这种问题可以解决此问题，但在推理过程中会引发过高的存储和计算成本，并且无法利用不同模型的共同知识。在本工作中，我们观察到不同的层表现出不同水平的参数冲突。基于这一洞察，我们将参数冲突较少的层进行平均，并使用一种新颖的任务级专家路由来处理具有显著冲突的层。为了进一步减少存储成本，借鉴任务算术稀疏性的理念，我们将多个微调专家解耦为一个密集专家和若干稀疏专家。考虑到离分布样本，我们根据输入数据的任务不确定性选择并合并合适的专家。我们在不同的参数规模下对LLaMA和Qwen进行了广泛的实验，并在现实世界的推理任务上进行了评估。结果表明，与现有方法相比，我们的方法在系统成本较低的情况下，能够实现显著的性能提升。