LLM2D

摘要

大型语言模型 (LLM) 在各种任务和专业领域中表现出色，基于现有模型扩展 LLM 已引起广泛关注，但面临着组合不同模型时性能下降的挑战。针对预训练 LLM 的聚合，已经提出了多种技术，包括模型合并、专家混合和堆叠。尽管这些技术具有优势，但对其在不同模型库上的全面比较和协同应用尚未得到充分解决。鉴于这一研究空白，本文介绍了 Model-GLUE，一个全面的 LLM 扩展指南。首先，我们的工作从对现有 LLM 扩展技术的基准测试开始，特别是选择性合并和混合的变体。利用基准测试结果的见解，我们制定了针对不同架构和初始化的异构模型库的选择和聚合策略。我们的方法包括可合并模型的聚类和最佳合并策略选择，以及通过模型混合整合聚类。最后，通过我们在基于 Llama-2 的多样化模型库上的实验证明，Model-GLUE 在没有额外训练的情况下，平均性能提升了 5.61%。代码可在以下地址获取：https://github.com/Model-GLUE/Model-GLUE。