摘要
arXiv:2504.05346v1 类别: cross
摘要:本文介绍了Thanos,这是一种新型的权重剪枝算法,旨在通过删除冗余权重同时保持准确性来减少大型语言模型(LLMs)的内存占用并提高计算效率。Thanos 引入了一种块级别的剪枝策略,该策略使用自适应掩码动态调整权重的重要性,从而支持灵活的稀疏模式和结构化格式,如优化硬件加速的 $n:m$ 稀疏模式。实验评估表明,Thanos 在结构化剪枝方面达到了最先进的性能,并且在无结构剪枝方面优于现有方法。通过提供一种高效且可适应的模型压缩方法,Thanos 为在资源受限环境中部署大型模型提供了一个实用的解决方案。