LLM2D

摘要

arXiv:2505.01572v1 说明类型: 新摘要:推测性解码通过使用较小的草稿模型生成候选令牌来进行并行验证，从而加速大型语言模型的推理。然而，当前的方法受限于顺序阶段依赖性，这限制了硬件的充分利用。我们提出了PipeSpec框架，该框架将推测性解码泛化为$k$个模型组成的分层流水线，从而实现异步执行，并使用轻量级协调进行预测验证和回滚。我们的分析模型描述了流水线各阶段的令牌生成速率，并证明了在任何非零接受率下，相对于传统解码方法，PipeSpec提供了可保证的吞吐量改进。此外，我们推导了稳态验证概率的闭式表达式，以解释流水线深度的经验效益。实验结果表明，PipeSpec可以实现高达2.54倍的加速，并且在LLaMA 2和3模型使用的情况下，优于最先进的方法。我们在文本摘要和代码生成任务中验证了PipeSpec，证明了随着模型深度的增加，流水线效率提高，提供了一种在多设备系统中加速LLM推理的可扩展方法。