LLM2D
重新审视模型合并中的权重平均方法
Revisiting Weight Averaging for Model Merging
作者: Jiho Choi, Donggyun Kim, Chanhyuk Lee, Seunghoon Hong
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2412.12153v2

摘要

arXiv:2412.12153v2 宣告类型: replace-cross 摘要: 模型合并旨在通过组合单独微调模型的参数来构建一个多任务学习器,而无需额外的训练。虽然一个直接的方法是跨任务平均模型参数,但这种方法往往会导致由于参数之间的相互干扰而导致性能不佳。在本文中,我们展示了有趣的结果,即权重平均隐式地诱导出以权重平均为中心的任务向量,并且应用这些中心化任务向量的低秩近似显著提高了合并性能。我们的分析表明,中心化任务向量有效地减少了任务之间的干扰,大多数任务特定的知识集中在前几个奇异向量中。我们的方法在不同任务数量和模型规模的视觉基准测试中表现出 robust 和可扩展的性能。此外,我们观察到,我们的方法在自然语言处理任务中也具有竞争力的性能。