LLM2D

摘要

虽然微调预训练模型已成为普遍做法，但这些模型在特定领域之外通常表现不佳。最近开发的模型融合技术能够将多个为不同任务微调的模型直接集成到单个模型中。这种策略促进了多任务能力，而无需在原始数据集上重新训练。然而，现有方法在解决任务之间潜在冲突和复杂相关性方面存在不足，特别是在参数级调整方面，这给有效平衡各种任务之间的参数竞争带来了挑战。本文介绍了一种名为 PCB-Merging（参数竞争平衡）的创新技术，这是一种轻量级且无需训练的技术，可调整每个参数的系数以实现有效的模型融合。PCB-Merging 采用内部平衡来衡量单个任务内参数的重要性，并采用外部平衡来评估不同任务之间参数的相似性。重要性评分较低的参数将被丢弃，而剩余的参数将被重新缩放以形成最终合并的模型。我们评估了我们的方法在各种合并场景中的表现，包括跨任务、跨领域和跨训练配置，以及域外泛化。实验结果表明，我们的方法在多种模态、领域、模型大小、任务数量、微调形式和大型语言模型中实现了显著的性能提升，优于现有的模型融合方法。代码可在以下地址公开获取：\url{https://github.com/duguodong7/pcb-merging}。