摘要
arXiv:2505.07289v1 宣布类型: 交叉
摘要:大型语言模型(LLM)部署的指数增长加剧了对高效模型压缩技术的需求,以减少计算和内存成本。虽然剪枝和量化显示出前景,但它们的结合潜力尚未得到充分探索。在本文中,我们研究了联合压缩,并探讨了如何战略性地结合剪枝和量化,以在单方法方法相比时,提供更优的性能-压缩比。鉴于准确评估LLM性能的挑战,我们解决了之前评估框架的关键限制,并引入了语义保留压缩率(SrCr),这是一种新型指标,量化了模型压缩和语义保留之间的权衡,促进剪枝-量化配置的优化。实验表明,我们推荐的组合平均在相同的理论压缩率下,相比仅量化模型,实现了20%的性能提升。