摘要
arXiv:2504.12526v1 类型:交叉领域
摘要:长上下文语言模型表现优异,但在推理过程中由于高GPU内存需求而难以部署。我们提出了一种名为Memory-efficient Offloaded Mini-sequence Inference (MOM)的方法,该方法将关键层划分为更小的“mini-sequence”,并与KV缓存卸载无缝集成。在各种Llama、Qwen和Mistral模型上的实验表明,MOM将平均峰值内存使用量降低了超过50%。在单个A100 80GB GPU上,MOM将最大上下文长度从155k增加到455k个标记,同时保持输出一致且不影响准确性。由于计算开销极小且具有高效的最后一层处理,MOM还维持了高度竞争力的吞吐量。与传统的分块预填充方法相比,MOM实现了35%更大的上下文长度扩展。更重要的是,我们的方法大幅减少了预填充内存消耗,消除了推理过程中长久以来的主要内存瓶颈。这一突破性进展从根本上改变了研究重点,将未来的努力从预填充阶段的优化转向提高解码阶段残差KV缓存效率。