LLM2D

摘要

arXiv:2505.06977v1 宣告类型: 新增摘要: 多任务模型合并提供了一种有前途的范式，可以在不进行额外训练的情况下将多个专家模型整合到一个统一模型中。现有的最先进的技术，如任务算术及其变体，通过累积任务向量（即，预训练模型和微调模型之间的参数差异）将模型合并在一起。然而，任务向量的累积常常受到知识冲突的阻碍，导致性能下降。为了应对这一挑战，我们提出了一种名为冲突感知任务合并（CAT 合并）的新型无训练框架，该框架选择性地从任务向量中裁剪出易引起冲突的组件。CAT 合并引入了几种针对参数的具体策略，包括线性权重的投影以及归一化层中缩放和平移参数的掩码。在视觉、语言和视觉语言任务上的广泛实验表明，CAT 合并有效地抑制了知识冲突，相比最先进的方法在 ViT-B/32 上平均提高了 2.5% 的准确率，并在 ViT-L/14 上提高了 2.0%。