LLM2D
全局秩和稀疏性优化的大语言模型压缩
Large Language Model Compression with Global Rank and Sparsity Optimization
作者: Changhai Zhou, Qian Qiao, Weizhong Zhang, Cheng Jin
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.03801v1

摘要

arXiv:2505.03801v1 交叉型公告 摘要:低秩和稀疏复合近似是一种压缩大型语言模型(LLMs)的自然想法。然而,这种方法面临两个主要挑战,这些挑战会严重影响现有方法的性能。第一个挑战涉及低秩矩阵和稀疏矩阵之间的交互与合作,而第二个挑战则涉及到在不同层之间分配权重,因为这些层之间的冗余程度差异很大。为了解决这些挑战,我们提出了一种具有全局秩和稀疏优化能力的新型两阶段LLM压缩方法。值得注意的是,整体优化空间非常庞大,使得全面优化计算上不可行。因此,为了减少优化空间,我们第一阶段利用鲁棒主成分分析将LLM的权重矩阵分解为低秩和稀疏分量,这些分量分别位于低维和稀疏空间中,包含相应的低秩和稀疏矩阵。在第二阶段,我们提出了一种概率全局优化技术,以联合识别上述两个空间中的低秩和稀疏结构。我们方法的吸引之处在于它能够自动检测不同层之间的冗余,并管理稀疏和低秩组件之间的交互。广泛的实验结果表明,我们的方法在稀疏化和复合近似方面显著超越了现有最先进的技术。