LLM2D

摘要

arXiv:2409.00592v3 公告类型: 替换交叉摘要：大规模模型的迅速增长远远超过了计算资源的增长速度。为了弥合这一差距，受到大脑在生长和发展过程中基因型和表型之间简约关系的启发，我们提出了一种所谓的超压缩方法，将模型压缩转换为参数表示问题，通过超函数实现。具体来说，已知某些低维动态系统的轨迹最终可以填充高维空间。因此，使用这些动态系统作为超函数的超压缩，通过其相应的组合数或轨迹长度表示目标网络的参数。这表明了一种新的模型压缩机制，与现有的剪枝、量化、蒸馏和分解方法显著不同。沿着这一方向，从方法论上我们选择了具有无理缠绕的合适动态系统作为超函数，并理论推导了其相关误差界限。接下来，根据我们的理论见解，我们提出了几种工程上的调整，使超压缩更加实用和有效。最后，系统而全面的实验表明，超压缩具有以下优点：1) **P** 更优的压缩比；2) **N** 无后处理重训练；3) **A** 可承受的推理时间；4) **S** 短压缩时间。它在一小时内压缩了LLaMA2-7B，并实现了接近int4-量化的效果，无需重训练且性能下降不到1%。我们已在https://github.com/Juntongkuki/Hyper-Compression.git 开源了我们的代码，供免费下载和评估。