摘要
大型语言模型 (LLM) 在各种任务和专业领域中表现出色,基于现有模型扩展 LLM 已引起广泛关注,但面临着组合不同模型时性能下降的挑战。针对预训练 LLM 的聚合,已经提出了多种技术,包括模型合并、专家混合和堆叠。尽管这些技术具有优势,但对其在不同模型库上的全面比较和协同应用尚未得到充分解决。鉴于这一研究空白,本文介绍了 Model-GLUE,一个全面的 LLM 扩展指南。首先,我们的工作从对现有 LLM 扩展技术的基准测试开始,特别是选择性合并和混合的变体。利用基准测试结果的见解,我们制定了针对不同架构和初始化的异构模型库的选择和聚合策略。我们的方法包括可合并模型的聚类和最佳合并策略选择,以及通过模型混合整合聚类。最后,通过我们在基于 Llama-2 的多样化模型库上的实验证明,Model-GLUE 在没有额外训练的情况下,平均性能提升了 5.61%。代码可在以下地址获取:https://github.com/Model-GLUE/Model-GLUE。