LLM2D

摘要

arXiv:2502.14837v1 交叉类型: cross 摘要: 多头潜在注意（MLA）是由DeepSeek提出的一种创新架构，旨在通过显著压缩键-值（KV）缓存为潜在向量来确保高效和经济的推理。与MLA相比，采用多头注意（MHA）及其变体如组查询注意（GQA）的标准LLM在成本上显示出显着的劣势。使具有良好训练的LLM（例如Llama）能够快速适应MLA而无需从头开始进行预训练，既具意义又具挑战性。本文提出了一种高效的数据调整方法（从MHA到MLA的调整，即MHA2MLA），其中包括两个关键组件：对于部分RoPE，我们从对注意力分数贡献较小的查询和键的维度移除RoPE；对于低秩近似，我们引入基于预训练的键和值参数的联合SVD近似。这些精心设计的策略使得MHA2MLA仅使用数据的极小部分（0.3%到0.6%）就能恢复性能，大幅降低了推理成本，并无缝地与KV缓存量化等压缩技术集成。例如，Llama2-7B的KV缓存大小减少了92.19%，仅在LongBench性能上下降了0.5%。