LLM2D
大型语言模型的激活导向合并
Activation-Informed Merging of Large Language Models
作者: Amin Heyrani Nobari, Kaveh Alimohammadi, Ali ArjomandBigdeli, Akash Srivastava, Faez Ahmed, Navid Azizan
发布日期: 2/5/2025
arXiv ID: 2502.02421

摘要

arXiv:2502.02421v1 类型: cross 摘要: 模型合并是一种将多个微调大型语言模型(LLMs)的参数和嵌入结合的方法,它提供了在各种任务上增强模型性能的同时保持计算效率的有前景的方法。本文介绍了激活信息驱动合并(Activation-Informed Merging, AIM),这是一种将LLMs的激活空间信息整合到合并过程中的技术,以提高性能和稳健性。AIM设计为一种灵活的、互补的解决方案,适用于任何现有的合并方法。它旨在保留基础模型中的关键权重,借鉴了持续学习(CL)和模型压缩的原则。利用一个任务无关的校准集,AIM在合并过程中有选择地优先处理关键权重。我们实证证明,AIM显著提高了多个基准下的合并模型性能。我们的研究结果表明,考虑激活空间信息可以在LLMs的模型合并策略中提供显著改进,最多可提高40%的基准性能。