摘要
大型语言模型(LLM)在人工智能研究领域一直占据主导地位。为了压缩LLM,许多高效的技术,包括权重剪枝、量化和蒸馏,已被广泛采用,旨在减少内存并加速推理,这突出了LLM中的冗余性。然而,大多数模型压缩技术集中在权重优化上,而忽略了对最佳架构的探索。此外,传统的架构搜索方法因其参数复杂性过高而难以在LLM上展现出有效性。本文提出了一种免训练架构搜索框架,以识别保留原始LLM基本优势并实现推理加速的最佳子网络。此外,在生成继承原始LLM特定权重的子网络后,我们引入了一种重构算法,利用省略的权重,用少量校准数据来修正继承的权重。与能够生成更小型网络的SOTA免训练结构化剪枝工作相比,我们的方法在标准基准测试中展现出更优异的性能。此外,我们生成的子网络可以直接减少GPU内存的使用并实现推理加速。