摘要
arXiv:2504.14569v1 任务类型: 交叉
摘要: 大型语言模型(LLMs)在各种自然语言处理任务上表现出色,但它们面临着巨大的计算和内存需求,限制了它们在资源受限环境中的部署。为了解决这一挑战,我们提出了NoWag:一种统一的零样本形状保留压缩算法框架。我们使用两种流行的形状保留压缩形式对Llama-2 7B/13B/70B和Llama-3 8/70BB模型进行了压缩,分别是NoWag-VQ(NoWag的向量量化版本)和NoWag-P(NoWag的剪枝版本)。我们发现NoWag-VQ在零样本向量量化方面显著优于现有最佳方法,而NoWag-P与现有最佳方法竞争。这些结果表明这些压缩范式的共同点,这可能会启发未来的相关工作。我们的代码可在https://github.com/LawrenceRLiu/NoWag获取。