LLM2D

摘要

arXiv:2410.03804v2 宣称类型: replace-cross 摘要：大型语言模型（LLMs）参数数量的增长导致了计算需求的显著增加，使得它们的部署变得具有挑战性和成本高昂。推测性解码（SD）利用较小的模型高效地提出未来的令牌，然后由LLM并行验证。目前使用LLM激活的较小模型实现了最快的解码速度。然而，我们识别出SD模型的一些局限性，包括训练过程中的非现行政策性和部分可观测性。为了克服这些不足，我们提出了一种更为现实的较小模型架构，通过引入一种混合注意力机制来实现SD。我们提出的新型架构可以在两种场景中应用：常规的一设备部署和一种新的客户端-服务器部署，其中较小模型托管在消费者设备上，而LLM托管在服务器上。在单设备场景中，我们通过提升EAGLE-2的9.5%的速度和25%的接受长度，展示了最先进的加速效果。在客户端-服务器环境中，我们的实验展示了：1）不同网络条件下具有最小服务器调用的最先进的延迟；2）在完全断开连接的情况下，我们的方法相较于其他SD方法能够保持更高的准确性，并且在无法继续生成过程时，也证明了优于对LLM的API调用的优势。