LLM2D

摘要

arXiv:2503.22178v1 类型：交叉摘要：模型合并已成为将独立微调模型统一到集成框架中的有希望的方法，显著提高了多任务学习中的计算效率。最近，已经引入了几种基于SVD的技术，利用低秩结构来增强合并，但它们对这种手动设计的秩选择的依赖往往会导致任务间干扰和次优性能。在本文中，我们提出了一种新的模型合并框架AdaRank，该框架能够自适应地选择任务向量中最有利的奇异方向来合并多个模型。我们通过实验表明，任务向量的主要奇异成分可能会与其他任务产生关键干扰，并且在不同任务和层之间进行简单的截断会损害性能。相反，AdaRank 动态剔除导致干扰的奇异成分，并通过在测试时通过熵最小化学习来为每个任务向量提供最优的信息量。我们的分析表明，这种方法可以减轻任务间的有害重叠，实证结果表明，AdaRank 在各种后端和任务数量下都能够实现最先进的性能，将微调模型之间的性能差距缩小到几乎1%。