LLM2D
向经济高效的推理迈进:在任何基于Transformer的大型语言模型中启用DeepSeek的多头潜在注意力功能
Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs
作者: Tao Ji, Bin Guo, Yuanbin Wu, Qipeng Guo, Lixing Shen, Zhan Chen, Xipeng Qiu, Qi Zhang, Tao Gui
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14837v1

摘要

arXiv:2502.14837v1 交叉类型: cross 摘要: 多头潜在注意(MLA)是由DeepSeek提出的一种创新架构,旨在通过显著压缩键-值(KV)缓存为潜在向量来确保高效和经济的推理。与MLA相比,采用多头注意(MHA)及其变体如组查询注意(GQA)的标准LLM在成本上显示出显着的劣势。使具有良好训练的LLM(例如Llama)能够快速适应MLA而无需从头开始进行预训练,既具意义又具挑战性。本文提出了一种高效的数据调整方法(从MHA到MLA的调整,即MHA2MLA),其中包括两个关键组件:对于部分RoPE,我们从对注意力分数贡献较小的查询和键的维度移除RoPE;对于低秩近似,我们引入基于预训练的键和值参数的联合SVD近似。这些精心设计的策略使得MHA2MLA仅使用数据的极小部分(0.3%到0.6%)就能恢复性能,大幅降低了推理成本,并无缝地与KV缓存量化等压缩技术集成。例如,Llama2-7B的KV缓存大小减少了92.19%,仅在LongBench性能上下降了0.5%。