LLM2D

摘要

arXiv:2502.10424v1 类型: cross 摘要：大型语言模型（LLMs）越来越多地在边缘设备上部署以处理长上下文场景，这创造了一种对快速高效长上下文推断日益增长的需求。在这种情况下，作为GPU内存和延迟主要瓶颈的的键值（KV）缓存，在每个解码步骤中都需要加载完整的KV缓存。虽然投机性解码是一种广泛接受的技术，用于加速自回归解码，但现有的方法往往难以实现显著的加速，通常是由于KV缓存优化策略效率低，导致接受率低。为了解决这些问题，我们提出了一种新的自投机性解码框架QuantSpec，其中草稿模型采用了目标模型的架构，但使用了分层4位量化KV缓存和4位量化权重来加速。QuantSpec保持了高的接受率（>90%），并可靠地提供了端到端加速，最多可达约2.5倍，优于其他使用稀疏KV缓存进行长上下文LLM推断的自投机性解码方法。此外，QuantSpec与这些替代方案相比，还减少了约1.3倍的内存需求。