LLM2D

摘要

大型语言模型（LLM）在人工智能研究领域一直占据主导地位。为了压缩LLM，许多高效的技术，包括权重剪枝、量化和蒸馏，已被广泛采用，旨在减少内存并加速推理，这突出了LLM中的冗余性。然而，大多数模型压缩技术集中在权重优化上，而忽略了对最佳架构的探索。此外，传统的架构搜索方法因其参数复杂性过高而难以在LLM上展现出有效性。本文提出了一种免训练架构搜索框架，以识别保留原始LLM基本优势并实现推理加速的最佳子网络。此外，在生成继承原始LLM特定权重的子网络后，我们引入了一种重构算法，利用省略的权重，用少量校准数据来修正继承的权重。与能够生成更小型网络的SOTA免训练结构化剪枝工作相比，我们的方法在标准基准测试中展现出更优异的性能。此外，我们生成的子网络可以直接减少GPU内存的使用并实现推理加速。