LLM2D

摘要

arXiv:2505.06977v2 宣告类型: 替换摘要: 多任务模型合并提供了一种有前途的范式，可以在无需额外训练的情况下将多个专家模型集成到一个统一模型中。现有的最先进的技术，如任务算术及其变体，通过累积任务向量——预训练模型和微调模型之间的参数差异——来合并模型。然而，任务向量累积往往受到知识冲突的阻碍，导致性能下降。为了解决这一挑战，我们提出了一种名为冲突感知任务合并(CAT Merging)的新颖无训练框架，该框架选择性地修剪任务向量中的冲突易感组件。CAT Merging 引入了几种针对参数的具体策略，包括对线性权重进行投影，以及对归一化层中的缩放和移位参数进行掩码。在视觉、语言和多模态任务上的广泛实验表明，CAT Merging 有效地抑制了知识冲突，相对于最先进的方法在 ViT-B/32 上平均提高了 2.5% 的准确率，在 ViT-L/14 上平均提高了 2.0%。