LLM2D

摘要

arXiv:2503.21272v1 公告类型: 新摘要：大型语言模型的成功引发了对模型融合技术的广泛关注，特别是无需训练的方法，这些方法能够在参数空间内整合模型的能力。然而，仍然存在两个挑战：（1）所有参数的统一处理会导致性能下降；（2）基于搜索的算法通常效率低下。在本文中，我们提出了一种名为强化模型融合（RMM）的创新框架，该框架包括一个特别为融合任务设计的环境和智能体。这些组件相互作用，执行逐层融合操作，旨在搜索最优的融合架构。值得注意的是，RMM 不需要在原模型上进行任何梯度计算，使其适用于边缘设备。此外，在评价过程中利用数据子集，我们解决了奖励反馈阶段的瓶颈问题，从而将 RMM 加速了高达 100 倍。广泛的实验表明，RMM 在各种视觉和 NLP 数据集上实现了最先进的性能，并有效地克服了现有基准方法的局限性。我们的代码可在 https://github.com/WuDiHJQ/Reinforced-Model-Merging 获取。