LLM2D

摘要

arXiv:2409.13652v1 公告类型: 交叉摘要: 近期向大规模基础模型的范式转变为深度学习带来了新时代，尽管在实践中取得了巨大成功，但也伴随着高内存消耗和计算成本的昂贵代价。为了缓解这些问题，人们集中精力研究无需昂贵再训练的后处理神经网络剪枝技术。尽管取得了显著进展，现有方法在压缩增加时往往表现出模型性能的稳步下降。在本文中，我们提出了一种新颖的大规模变压器压缩方法，称为OATS，该方法利用输入嵌入中的二阶矩信息将模型权重分解为稀疏和低秩矩阵的和。在不进行任何再训练的情况下，OATS在压缩Llama-3和Phi-3等大型语言模型以及ViT和DINOv2等视觉变压器时，实现了高达60%的压缩率，同时与同等剪枝的模型相比，CPU加速提高了1.37倍，达到了最先进的性能。