LLM2D
通过异步键值缓存预取加速LLM推理吞吐量
Accelerating LLM Inference Throughput via Asynchronous KV Cache Prefetching
作者: Yanhao Dong, Yubo Miao, Weinan Li, Xiao Zheng, Chao Wang, Feng Lyu
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.06319v1

摘要

arXiv:2504.06319v1 类型: cross 摘要: 大型语言模型(LLMs)在推断过程中由于高带宽内存(HBM)带宽约束表现出显著的内存瓶颈特性。本文提出了一种面向L2缓存的异步键值缓存预取方法,通过计算负载重叠来突破LLM推断中的内存带宽瓶颈。通过在活跃计算窗口期间战略性地调度空闲的内存带宽,我们的方法主动将所需的键值缓存预取到GPU L2缓存中,从而在后续访问时实现高速的L2缓存命中,并有效地将HBM访问延迟隐藏在计算周期内。在NVIDIA H20 GPU上的广泛实验表明,所提出的方法在注意力内核效率上实现了2.15倍的提升,并且在端到端吞吐量上最多实现了1.97倍的提升,超过了最先进的基线FlashAttention-3。值得注意的是,我们的解决方案保持与现有优化技术的正交性,可以与当前的推断框架集成,提供一种面向下一代LLM推断引擎的可扩展的延迟隐藏解决方案。