LLM2D

摘要

arXiv:2504.08850v1 类型：交叉摘要：提前退出技术最近被证明是通过有效减少硬件计算和内存访问加快大型语言模型（LLMs）的一种有前途的方法。在这篇论文中，我们介绍了 SpecEE，一种具有推测性提前退出的快速 LLM 推断引擎。（1）在算法层面，我们提出了一种基于推测的轻量级预测器设计，通过利用推测性令牌与正确结果之间的概率相关性以及 GPU 的高并行性。（2）在系统层面，我们指出并非所有层都需要预测器，并基于偏斜分布和上下文相似性设计了两级启发式预测器调度引擎。（3）在映射层面，我们指出不同的解码方法共享相同的基本特性，并提出了支持推测性解码的概念感知合并映射，以及在云和个人电脑（PC）场景中支持各种现有正交加速技术（例如量化和稀疏激活）的框架，成功地推动了准确性和加速比的帕累托前沿。值得注意的是，SpecEE 可以通过可忽略不计的训练开销应用于任何 LLM，而不会影响模型的原始参数。广泛的实验表明，SpecEE 在云和 PC 场景中分别实现了 Llama2-7B 的 2.25 倍和 2.43 倍加速。