摘要
arXiv:2410.03804v2 宣称类型: replace-cross
摘要:大型语言模型(LLMs)参数数量的增长导致了计算需求的显著增加,使得它们的部署变得具有挑战性和成本高昂。推测性解码(SD)利用较小的模型高效地提出未来的令牌,然后由LLM并行验证。目前使用LLM激活的较小模型实现了最快的解码速度。然而,我们识别出SD模型的一些局限性,包括训练过程中的非现行政策性和部分可观测性。为了克服这些不足,我们提出了一种更为现实的较小模型架构,通过引入一种混合注意力机制来实现SD。我们提出的新型架构可以在两种场景中应用:常规的一设备部署和一种新的客户端-服务器部署,其中较小模型托管在消费者设备上,而LLM托管在服务器上。在单设备场景中,我们通过提升EAGLE-2的9.5%的速度和25%的接受长度,展示了最先进的加速效果。在客户端-服务器环境中,我们的实验展示了:1)不同网络条件下具有最小服务器调用的最先进的延迟;2)在完全断开连接的情况下,我们的方法相较于其他SD方法能够保持更高的准确性,并且在无法继续生成过程时,也证明了优于对LLM的API调用的优势。