LLM2D

摘要

arXiv:2504.06319v1 类型: cross 摘要: 大型语言模型（LLMs）在推断过程中由于高带宽内存（HBM）带宽约束表现出显著的内存瓶颈特性。本文提出了一种面向L2缓存的异步键值缓存预取方法，通过计算负载重叠来突破LLM推断中的内存带宽瓶颈。通过在活跃计算窗口期间战略性地调度空闲的内存带宽，我们的方法主动将所需的键值缓存预取到GPU L2缓存中，从而在后续访问时实现高速的L2缓存命中，并有效地将HBM访问延迟隐藏在计算周期内。在NVIDIA H20 GPU上的广泛实验表明，所提出的方法在注意力内核效率上实现了2.15倍的提升，并且在端到端吞吐量上最多实现了1.97倍的提升，超过了最先进的基线FlashAttention-3。值得注意的是，我们的解决方案保持与现有优化技术的正交性，可以与当前的推断框架集成，提供一种面向下一代LLM推断引擎的可扩展的延迟隐藏解决方案。