LLM2D

摘要

arXiv:2504.12526v1 类型：交叉领域摘要：长上下文语言模型表现优异，但在推理过程中由于高GPU内存需求而难以部署。我们提出了一种名为Memory-efficient Offloaded Mini-sequence Inference (MOM)的方法，该方法将关键层划分为更小的“mini-sequence”，并与KV缓存卸载无缝集成。在各种Llama、Qwen和Mistral模型上的实验表明，MOM将平均峰值内存使用量降低了超过50%。在单个A100 80GB GPU上，MOM将最大上下文长度从155k增加到455k个标记，同时保持输出一致且不影响准确性。由于计算开销极小且具有高效的最后一层处理，MOM还维持了高度竞争力的吞吐量。与传统的分块预填充方法相比，MOM实现了35%更大的上下文长度扩展。更重要的是，我们的方法大幅减少了预填充内存消耗，消除了推理过程中长久以来的主要内存瓶颈。这一突破性进展从根本上改变了研究重点，将未来的努力从预填充阶段的优化转向提高解码阶段残差KV缓存效率。