摘要
arXiv:2502.14837v1 交叉类型: cross
摘要: 多头潜在注意(MLA)是由DeepSeek提出的一种创新架构,旨在通过显著压缩键-值(KV)缓存为潜在向量来确保高效和经济的推理。与MLA相比,采用多头注意(MHA)及其变体如组查询注意(GQA)的标准LLM在成本上显示出显着的劣势。使具有良好训练的LLM(例如Llama)能够快速适应MLA而无需从头开始进行预训练,既具意义又具挑战性。本文提出了一种高效的数据调整方法(从MHA到MLA的调整,即MHA2MLA),其中包括两个关键组件:对于部分RoPE,我们从对注意力分数贡献较小的查询和键的维度移除RoPE;对于低秩近似,我们引入基于预训练的键和值参数的联合SVD近似。这些精心设计的策略使得MHA2MLA仅使用数据的极小部分(0.3%到0.6%)就能恢复性能,大幅降低了推理成本,并无缝地与KV缓存量化等压缩技术集成。例如,Llama2-7B的KV缓存大小减少了92.19%,仅在LongBench性能上下降了0.5%。