摘要
arXiv:2409.00592v3 公告类型: 替换交叉
摘要:大规模模型的迅速增长远远超过了计算资源的增长速度。为了弥合这一差距,受到大脑在生长和发展过程中基因型和表型之间简约关系的启发,我们提出了一种所谓的超压缩方法,将模型压缩转换为参数表示问题,通过超函数实现。具体来说,已知某些低维动态系统的轨迹最终可以填充高维空间。因此,使用这些动态系统作为超函数的超压缩,通过其相应的组合数或轨迹长度表示目标网络的参数。这表明了一种新的模型压缩机制,与现有的剪枝、量化、蒸馏和分解方法显著不同。沿着这一方向,从方法论上我们选择了具有无理缠绕的合适动态系统作为超函数,并理论推导了其相关误差界限。接下来,根据我们的理论见解,我们提出了几种工程上的调整,使超压缩更加实用和有效。最后,系统而全面的实验表明,超压缩具有以下优点:1) **P** 更优的压缩比;2) **N** 无后处理重训练;3) **A** 可承受的推理时间;4) **S** 短压缩时间。它在一小时内压缩了LLaMA2-7B,并实现了接近int4-量化的效果,无需重训练且性能下降不到1%。我们已在https://github.com/Juntongkuki/Hyper-Compression.git 开源了我们的代码,供免费下载和评估。