LLM2D
CLOVER:跨层正交向量剪枝与微调
CLOVER: Cross-Layer Orthogonal Vectors Pruning and Fine-Tuning
作者: Fanxu Meng, Pingzhi Tang, Fan jiang, Muhan Zhang
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2411.17426v3

摘要

arXiv:2411.17426v3 Decoder-only模型通过缓存键/值向量自回归地生成令牌,但随着缓存的增长,推理变得受到内存限制。为了解决这一问题,我们引入了CLOVER(Cross-Layer Orthogonal Vectors),这是一种新颖的方法,将每个多头注意力层中的注意力层对视为低秩分解集。CLOVER对每个注意力头中的\( Q \)-\( K \)和\( V \)-\( O \)对应用奇异值分解(SVD)。由此得到的奇异值可以指导剪枝或作为有效的可训练参数,以高效地调整所有正交向量。剪枝或微调后,这些值会被重新整合到模型中,不会增加参数数量。我们对包括GPT-2 XL、DeepSeek-V2-Lite、Whisper-Large-v3、Stable Diffusion XL和LLaMA-3.2-11B-Vision在内的多种模型应用了CLOVER。我们的结果显示,CLOVER显著提高了剪枝效率。例如,在GPT-2 XL中剪枝70%的\( Q \)-\( K \)对的困惑度与使用传统方法仅剪枝8%的困惑度相似。进一步微调奇异值后,结果产生了完整的秩更新,在包括八项常识任务在内的LLaMA-2 7B上分别优于LoRA、DoRA、HiRA和PiSSA的7.6%、5.5%、3.8%和0.7%。