LLM2D
用于推测解码的混合注意力机制
Mixture of Attentions For Speculative Decoding
作者: Matthieu Zimmer, Milan Gritta, Gerasimos Lampouras, Haitham Bou Ammar, Jun Wang
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.03804v1

摘要

大型语言模型(LLM)的参数数量不断增长,导致了计算需求的显著增加,使得它们的部署变得困难且昂贵。推测解码(SD)利用更小的模型来高效地预测未来词元,然后由 LLM 并行验证。目前,利用 LLM 激活的小型模型实现了最快的解码速度。然而,我们发现 SD 模型存在一些局限性,包括训练期间缺乏在线策略性和部分可观测性。为了解决这些缺陷,我们通过引入用于 SD 的注意力混合,为小型模型提出了更基础的架构。我们的新型架构可以在两种场景中应用:传统的单设备部署和新颖的客户端-服务器部署,其中小型模型托管在消费设备上,而 LLM 托管在服务器上。在单设备场景中,我们展示了最先进的加速效果,将 EAGLE-2 提高了 9.5%,并将它的接受长度提高了 25%。在客户端-服务器设置中,我们的实验表明:1)在不同网络条件下,以最少的服务器调用实现了最先进的延迟;2)在完全断开连接的情况下,与其他 SD 方法相比,我们的方法可以保持更高的准确率,并展示了相对于 LLM API 调用的优势,否则 LLM 将无法继续生成过程。