LLM2D
忘记数据和微调!只需折叠网络以压缩
Forget the Data and Fine-Tuning! Just Fold the Network to Compress
作者: Dong Wang, Haris \v{S}iki\'c, Lothar Thiele, Olga Saukh
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.10216v1

摘要

arXiv:2502.10216v1 类别:交叉学科 摘要:我们提出了模型折叠,这是一种新型的数据免费模型压缩技术,它通过在层间合并结构相似的神经元,显著减少了模型的大小,而无需进行微调或访问训练数据。与现有方法不同,模型折叠在压缩过程中利用了k-means聚类技术保留数据统计信息,并使用新颖的数据免费技术防止方差崩溃或膨胀。我们理论框架和在标准基准上的实验,包括ResNet18和LLaMA-7B,表明模型折叠达到了与数据驱动压缩技术相当的性能,并且在高稀疏性水平上优于最近提出的几种数据免费方法。这种方法特别适用于压缩大型模型,使其在资源受限的环境中具有部署优势。