LLM2D

摘要

arXiv:2502.02421v1 类别：交叉学科摘要: 模型融合是一种将多个细调的大语言模型（LLMs）的参数和嵌入结合起来的方法，它为提升各种任务的模型性能提供了有希望的方法，同时保持计算效率。本文介绍了激活信息融合（Activation-Informed Merging，AIM），这是一种将LLMs的激活空间信息整合到融合过程中的技术，以提高性能和鲁棒性。AIM 设计为一种灵活的补充解决方案，适用于任何现有的融合方法。它旨在保留基础模型的关键权重，借鉴了持续学习（CL）和模型压缩的原则。利用一项任务无关的校准集，AIM 在融合过程中优先选择关键权重。我们通过实验证明，AIM 显著提高了多个基准模型的性能。我们的研究表明，考虑激活空间的信息可以在LLMs的模型融合策略中提供显著的改进，基准性能提高多达40%。