摘要
arXiv:2504.06319v1 类型: cross
摘要: 大型语言模型(LLMs)在推断过程中由于高带宽内存(HBM)带宽约束表现出显著的内存瓶颈特性。本文提出了一种面向L2缓存的异步键值缓存预取方法,通过计算负载重叠来突破LLM推断中的内存带宽瓶颈。通过在活跃计算窗口期间战略性地调度空闲的内存带宽,我们的方法主动将所需的键值缓存预取到GPU L2缓存中,从而在后续访问时实现高速的L2缓存命中,并有效地将HBM访问延迟隐藏在计算周期内。在NVIDIA H20 GPU上的广泛实验表明,所提出的方法在注意力内核效率上实现了2.15倍的提升,并且在端到端吞吐量上最多实现了1.97倍的提升,超过了最先进的基线FlashAttention-3。值得注意的是,我们的解决方案保持与现有优化技术的正交性,可以与当前的推断框架集成,提供一种面向下一代LLM推断引擎的可扩展的延迟隐藏解决方案。