LLM2D
模型-GLUE:面向真实场景的大模型动物园的民主化 LLM 扩展
Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild
作者: Xinyu Zhao, Guoheng Sun, Ruisi Cai, Yukun Zhou, Pingzhi Li, Peihao Wang, Bowen Tan, Yexiao He, Li Chen, Yi Liang, Beidi Chen, Binhang Yuan, Hongyi Wang, Ang Li, Zhangyang Wang, Tianlong Chen
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05357v1

摘要

大型语言模型 (LLM) 在各种任务和专业领域中表现出色,基于现有模型扩展 LLM 已引起广泛关注,但面临着组合不同模型时性能下降的挑战。针对预训练 LLM 的聚合,已经提出了多种技术,包括模型合并、专家混合和堆叠。尽管这些技术具有优势,但对其在不同模型库上的全面比较和协同应用尚未得到充分解决。鉴于这一研究空白,本文介绍了 Model-GLUE,一个全面的 LLM 扩展指南。首先,我们的工作从对现有 LLM 扩展技术的基准测试开始,特别是选择性合并和混合的变体。利用基准测试结果的见解,我们制定了针对不同架构和初始化的异构模型库的选择和聚合策略。我们的方法包括可合并模型的聚类和最佳合并策略选择,以及通过模型混合整合聚类。最后,通过我们在基于 Llama-2 的多样化模型库上的实验证明,Model-GLUE 在没有额外训练的情况下,平均性能提升了 5.61%。代码可在以下地址获取:https://github.com/Model-GLUE/Model-GLUE。