摘要
arXiv:2411.03055v3 宣布类型: replace-cross
摘要:模型合并 recently 突显为多任务学习的一种成本效益高的范式。在当前的方法中,任务算术因其简单性和有效性而脱颖而出。在本文中,我们通过对任务向量与多任务梯度的关联来解释任务向量的有效性。我们展示了在单个 epochs 场景中,如果使用梯度下降进行优化,那么经过一步之后,任务向量在数学上等价于通过梯度下降在多任务设置中获得的梯度,而在后续的 epochs 中它们仍然近似这些梯度。此外,我们表明任务向量的有效性很大程度上是由第一个 epochs 的梯度驱动的。鉴于任务向量与梯度之间的这种并行关系,我们提议将模型合并视为迭代过程中交替调优和合并(ATM)步骤中的一步。然后,我们提出了利用 ATM 的两种方式。首先,在禁止数据共享的场景中,如联邦学习,可以替代多任务学习使用 ATM。第二种方法是在使用通常用于超参数调优的较小验证数据集上应用几轮 ATM 的后处理迭代,以提高任何模型合并算法的结果。最后,我们为 ATM 的有效性提供了 empirical 和理论支持,证明它最小化了所有任务联合微调后所获得的损失的一个上界。