LLM2D

摘要

arXiv:2411.17426v3 Decoder-only模型通过缓存键/值向量自回归地生成令牌，但随着缓存的增长，推理变得受到内存限制。为了解决这一问题，我们引入了CLOVER（Cross-Layer Orthogonal Vectors），这是一种新颖的方法，将每个多头注意力层中的注意力层对视为低秩分解集。CLOVER对每个注意力头中的\( Q \)-\( K \)和\( V \)-\( O \)对应用奇异值分解（SVD）。由此得到的奇异值可以指导剪枝或作为有效的可训练参数，以高效地调整所有正交向量。剪枝或微调后，这些值会被重新整合到模型中，不会增加参数数量。我们对包括GPT-2 XL、DeepSeek-V2-Lite、Whisper-Large-v3、Stable Diffusion XL和LLaMA-3.2-11B-Vision在内的多种模型应用了CLOVER。我们的结果显示，CLOVER显著提高了剪枝效率。例如，在GPT-2 XL中剪枝70%的\( Q \)-\( K \)对的困惑度与使用传统方法仅剪枝8%的困惑度相似。进一步微调奇异值后，结果产生了完整的秩更新，在包括八项常识任务在内的LLaMA-2 7B上分别优于LoRA、DoRA、HiRA和PiSSA的7.6%、5.5%、3.8%和0.7%。