LLM2D
大型语言模型的激活指导合并
Activation-Informed Merging of Large Language Models
作者: Amin Heyrani Nobari, Kaveh Alimohammadi, Ali ArjomandBigdeli, Akash Srivastava, Faez Ahmed, Navid Azizan
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.02421v1

摘要

arXiv:2502.02421v1 类别:交叉学科 摘要: 模型融合是一种将多个细调的大语言模型(LLMs)的参数和嵌入结合起来的方法,它为提升各种任务的模型性能提供了有希望的方法,同时保持计算效率。本文介绍了激活信息融合(Activation-Informed Merging,AIM),这是一种将LLMs的激活空间信息整合到融合过程中的技术,以提高性能和鲁棒性。AIM 设计为一种灵活的补充解决方案,适用于任何现有的融合方法。它旨在保留基础模型的关键权重,借鉴了持续学习(CL)和模型压缩的原则。利用一项任务无关的校准集,AIM 在融合过程中优先选择关键权重。我们通过实验证明,AIM 显著提高了多个基准模型的性能。我们的研究表明,考虑激活空间的信息可以在LLMs的模型融合策略中提供显著的改进,基准性能提高多达40%。