LLM2D

摘要

arXiv:2504.05346v1 类别: cross 摘要：本文介绍了Thanos，这是一种新型的权重剪枝算法，旨在通过删除冗余权重同时保持准确性来减少大型语言模型（LLMs）的内存占用并提高计算效率。Thanos 引入了一种块级别的剪枝策略，该策略使用自适应掩码动态调整权重的重要性，从而支持灵活的稀疏模式和结构化格式，如优化硬件加速的 $n:m$ 稀疏模式。实验评估表明，Thanos 在结构化剪枝方面达到了最先进的性能，并且在无结构剪枝方面优于现有方法。通过提供一种高效且可适应的模型压缩方法，Thanos 为在资源受限环境中部署大型模型提供了一个实用的解决方案。