LLM2D

摘要

arXiv:2503.12649v2 宣布类型: 替换-交叉摘要：模型合并已经成为多任务学习（MTL）的一种有前景的方法，提供了与传统微调相比更有效的数据利用方式。然而，随着开源AI生态系统的快速发展和微调基础模型的日益可用，现有的模型合并方法面临着两个关键限制：(i) 它们主要针对内部微调模型设计，使得它们在面对部分未知模型和任务信息的多样化模型来源时较不适应；(ii) 在合并大量模型检查点时，它们难以有效扩展。为了解决这些挑战，我们将模型合并形式化为一个受限优化问题，并引入了一种新型方法：Frank-Wolfe 合并（FW-Merging）。受到Frank-Wolfe优化的启发，我们的方法会迭代地从池中选择最相关的模型来最小化目标函数的线性近似，然后执行类似于Frank-Wolfe更新的局部合并。目标函数设计用于捕捉目标合并模型所需的行为，而微调候选模型定义了约束集。更重要的是，FW-Merging 是现有合并方法的一个正交技术，可以无缝集成到它们中以进一步提高准确性性能。我们的实验表明，FW-Merging 能跨多种模型来源扩展，即使在与16个无关模型共存时仍能保持稳定，并且在与16个相关模型合并时在20个CV任务上提高了15.3%，同时保持了恒定的内存开销，而不同于数据驱动合并方法的线性内存开销。与最先进的方法相比，当合并20个ViT模型时，FW-Merging 在无数据合并方法上的性能超过了32.8%，在数据驱动的Adamerging上的性能超过了8.39%。我们的代码已开源在 github.com/hmarkc/FW-Merging。