LLM2D

摘要

arXiv:2504.14569v1 任务类型: 交叉摘要: 大型语言模型（LLMs）在各种自然语言处理任务上表现出色，但它们面临着巨大的计算和内存需求，限制了它们在资源受限环境中的部署。为了解决这一挑战，我们提出了NoWag：一种统一的零样本形状保留压缩算法框架。我们使用两种流行的形状保留压缩形式对Llama-2 7B/13B/70B和Llama-3 8/70BB模型进行了压缩，分别是NoWag-VQ（NoWag的向量量化版本）和NoWag-P（NoWag的剪枝版本）。我们发现NoWag-VQ在零样本向量量化方面显著优于现有最佳方法，而NoWag-P与现有最佳方法竞争。这些结果表明这些压缩范式的共同点，这可能会启发未来的相关工作。我们的代码可在https://github.com/LawrenceRLiu/NoWag获取。