摘要
arXiv:2502.10424v1 类型: cross
摘要:大型语言模型(LLMs)越来越多地在边缘设备上部署以处理长上下文场景,这创造了一种对快速高效长上下文推断日益增长的需求。在这种情况下,作为GPU内存和延迟主要瓶颈的的键值(KV)缓存,在每个解码步骤中都需要加载完整的KV缓存。虽然投机性解码是一种广泛接受的技术,用于加速自回归解码,但现有的方法往往难以实现显著的加速,通常是由于KV缓存优化策略效率低,导致接受率低。为了解决这些问题,我们提出了一种新的自投机性解码框架QuantSpec,其中草稿模型采用了目标模型的架构,但使用了分层4位量化KV缓存和4位量化权重来加速。QuantSpec保持了高的接受率(>90%),并可靠地提供了端到端加速,最多可达约2.5倍,优于其他使用稀疏KV缓存进行长上下文LLM推断的自投机性解码方法。此外,QuantSpec与这些替代方案相比,还减少了约1.3倍的内存需求。