LLM2D
Thanos: 一种块级剪枝算法,用于高效的大型语言模型压缩
Thanos: A Block-wise Pruning Algorithm for Efficient Large Language Model Compression
作者: Ivan Ilin, Peter Richtarik
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05346v1

摘要

arXiv:2504.05346v1 类别: cross 摘要:本文介绍了Thanos,这是一种新型的权重剪枝算法,旨在通过删除冗余权重同时保持准确性来减少大型语言模型(LLMs)的内存占用并提高计算效率。Thanos 引入了一种块级别的剪枝策略,该策略使用自适应掩码动态调整权重的重要性,从而支持灵活的稀疏模式和结构化格式,如优化硬件加速的 $n:m$ 稀疏模式。实验评估表明,Thanos 在结构化剪枝方面达到了最先进的性能,并且在无结构剪枝方面优于现有方法。通过提供一种高效且可适应的模型压缩方法,Thanos 为在资源受限环境中部署大型模型提供了一个实用的解决方案。