LLM2D
QSpec: 基于互补量化方案的 speculation 解码
QSpec: Speculative Decoding with Complementary Quantization Schemes
作者: Juntao Zhao, Wenhao Lu, Sheng Wang, Lingpeng Kong, Chuan Wu
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2410.11305v2

摘要

arXiv:2410.11305v2 宣告类型: replace-cross 摘要:量化已被广泛采用以加快大型语言模型(LLMs)的推理速度并减少内存消耗。虽然联合量化激活权重通过低精度内核加速了推理过程,但我们发现它在多步推理任务中表现严重下降,使其变得无效。我们提出了一种新的量化范式,称为QSPEC,它无缝地结合了两种互补的量化方案,用于推测性解码。利用几乎无成本的执行切换,QSPEC 以低精度快速执行激活权重量化生成令牌,并使用高精度权重仅量化验证这些令牌,有效地结合了这两种量化方案的优点。与高精度量化方法相比,QSPEC 实际上在没有质量损失的情况下,将令牌生成吞吐量提高了高达1.64倍,从而使其与其他低精度量化方法区分开来。这种增强效果在各种服务任务、模型规模、量化方法和批处理大小方面是一致的。与最先进的推测性解码方法相比,我们的方法重用了权重和KV缓存,在批处理服务中实现了高达1.55倍的加速,同时保持了较高的接受率。此外,QSPEC 提供了一种即插即用的优势,无需任何训练。我们相信,QSPEC 证明了对未来部署高保真量化方案的独特优势,特别是在内存受限的场景中(例如边缘设备)。