LLM2D

摘要

arXiv:2505.07289v1 宣布类型: 交叉摘要：大型语言模型（LLM）部署的指数增长加剧了对高效模型压缩技术的需求，以减少计算和内存成本。虽然剪枝和量化显示出前景，但它们的结合潜力尚未得到充分探索。在本文中，我们研究了联合压缩，并探讨了如何战略性地结合剪枝和量化，以在单方法方法相比时，提供更优的性能-压缩比。鉴于准确评估LLM性能的挑战，我们解决了之前评估框架的关键限制，并引入了语义保留压缩率（SrCr），这是一种新型指标，量化了模型压缩和语义保留之间的权衡，促进剪枝-量化配置的优化。实验表明，我们推荐的组合平均在相同的理论压缩率下，相比仅量化模型，实现了20%的性能提升。