LLM2D

摘要

arXiv:2502.04411v2 更新类型: replace-cross 摘要: 模型合并将不同任务微调的大语言模型（LLMs）合并为一个更强的模型。然而，模型之间的参数冲突导致在平均时性能下降。模型路由通过在推理时选择单个模型来解决这一问题，但它会带来过高的存储和计算成本，并且无法利用不同模型的共通知识。在这项工作中，我们观察到不同层的参数冲突程度不同。基于这一洞察，我们将参数冲突较少的层进行平均，并对有显著冲突的层使用一种新颖的任务级专家路由。为进一步降低存储成本，受任务算术稀疏性的启发，我们将多个微调专家拆解为一个密集专家和几个稀疏专家。考虑到离分布样本，我们根据输入数据的任务不确定性选择并合并适当的专家。我们在LLaMA和Qwen上进行了广泛的实验，参数规模各异，并在现实世界的推理任务上进行了评估。结果显示，与现有方法相比，我们的方法在系统成本较低的情况下，仍能实现显著的性能提升。