LLM2D
高效大语言模型的搜索
Search for Efficient Large Language Models
作者: Xuan Shen, Pu Zhao, Yifan Gong, Zhenglun Kong, Zheng Zhan, Yushu Wu, Ming Lin, Chao Wu, Xue Lin, Yanzhi Wang
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2409.17372v1

摘要

大型语言模型(LLM)在人工智能研究领域一直占据主导地位。为了压缩LLM,许多高效的技术,包括权重剪枝、量化和蒸馏,已被广泛采用,旨在减少内存并加速推理,这突出了LLM中的冗余性。然而,大多数模型压缩技术集中在权重优化上,而忽略了对最佳架构的探索。此外,传统的架构搜索方法因其参数复杂性过高而难以在LLM上展现出有效性。本文提出了一种免训练架构搜索框架,以识别保留原始LLM基本优势并实现推理加速的最佳子网络。此外,在生成继承原始LLM特定权重的子网络后,我们引入了一种重构算法,利用省略的权重,用少量校准数据来修正继承的权重。与能够生成更小型网络的SOTA免训练结构化剪枝工作相比,我们的方法在标准基准测试中展现出更优异的性能。此外,我们生成的子网络可以直接减少GPU内存的使用并实现推理加速。