LLM2D

摘要

arXiv:2410.11305v2 宣告类型: replace-cross 摘要：量化已被广泛采用以加快大型语言模型（LLMs）的推理速度并减少内存消耗。虽然联合量化激活权重通过低精度内核加速了推理过程，但我们发现它在多步推理任务中表现严重下降，使其变得无效。我们提出了一种新的量化范式，称为QSPEC，它无缝地结合了两种互补的量化方案，用于推测性解码。利用几乎无成本的执行切换，QSPEC 以低精度快速执行激活权重量化生成令牌，并使用高精度权重仅量化验证这些令牌，有效地结合了这两种量化方案的优点。与高精度量化方法相比，QSPEC 实际上在没有质量损失的情况下，将令牌生成吞吐量提高了高达1.64倍，从而使其与其他低精度量化方法区分开来。这种增强效果在各种服务任务、模型规模、量化方法和批处理大小方面是一致的。与最先进的推测性解码方法相比，我们的方法重用了权重和KV缓存，在批处理服务中实现了高达1.55倍的加速，同时保持了较高的接受率。此外，QSPEC 提供了一种即插即用的优势，无需任何训练。我们相信，QSPEC 证明了对未来部署高保真量化方案的独特优势，特别是在内存受限的场景中（例如边缘设备）。