摘要
arXiv:2412.10416v2 宣告类型: replace-cross
摘要:大型语言模型,如ChatGPT、Claude或LLaMA,是庞大的、单一的,并且具备同时支持数千任务的超能力。然而,高吞吐量应用往往偏好更小的任务特定模型,因为它们的延迟较低且成本更低。使用任务特定模型的一个挑战是在模型已经部署用于现有任务之后,需要解决新的任务。一个简单的解决方案是再次对现有和新任务进行模型微调,这在计算上是昂贵且耗时的。为了解决这个问题,我们提出了一种称为SUPERMERGE的模型合并方法。SUPERMERGE是一种基于梯度的方法,用于系统地合并多个针对现有和新任务训练的微调模型。SUPERMERGE被设计为轻量且快速,合并后的模型在所有任务上的性能与完全微调的模型相当。此外,我们提出了一种分层模型合并策略,以降低峰值空间需求而不牺牲合并模型的性能。我们实验证明,SUPERMERGE在常见的自然语言处理和计算机视觉任务上优于现有的模型合并方法。