LLM2D
强化模型合并
Reinforced Model Merging
作者: Jiaqi Han, Jingwen Ye, Shunyu Liu, Haofei Zhang, Jie Song, Zunlei Feng, Mingli Song
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.21272v1

摘要

arXiv:2503.21272v1 公告类型: 新 摘要:大型语言模型的成功引发了对模型融合技术的广泛关注,特别是无需训练的方法,这些方法能够在参数空间内整合模型的能力。然而,仍然存在两个挑战:(1)所有参数的统一处理会导致性能下降;(2)基于搜索的算法通常效率低下。在本文中,我们提出了一种名为强化模型融合(RMM)的创新框架,该框架包括一个特别为融合任务设计的环境和智能体。这些组件相互作用,执行逐层融合操作,旨在搜索最优的融合架构。值得注意的是,RMM 不需要在原模型上进行任何梯度计算,使其适用于边缘设备。此外,在评价过程中利用数据子集,我们解决了奖励反馈阶段的瓶颈问题,从而将 RMM 加速了高达 100 倍。广泛的实验表明,RMM 在各种视觉和 NLP 数据集上实现了最先进的性能,并有效地克服了现有基准方法的局限性。我们的代码可在 https://github.com/WuDiHJQ/Reinforced-Model-Merging 获取。