LLM2D
PipeSpec: 突破层级LLM解码中的阶段依赖性
PipeSpec: Breaking Stage Dependencies in Hierarchical LLM Decoding
作者: Bradley McDanel, Sai Qian Zhang, Yunhai Hu, Zining Liu
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.01572v1

摘要

arXiv:2505.01572v1 说明类型: 新 摘要:推测性解码通过使用较小的草稿模型生成候选令牌来进行并行验证,从而加速大型语言模型的推理。然而,当前的方法受限于顺序阶段依赖性,这限制了硬件的充分利用。我们提出了PipeSpec框架,该框架将推测性解码泛化为$k$个模型组成的分层流水线,从而实现异步执行,并使用轻量级协调进行预测验证和回滚。我们的分析模型描述了流水线各阶段的令牌生成速率,并证明了在任何非零接受率下,相对于传统解码方法,PipeSpec提供了可保证的吞吐量改进。此外,我们推导了稳态验证概率的闭式表达式,以解释流水线深度的经验效益。实验结果表明,PipeSpec可以实现高达2.54倍的加速,并且在LLaMA 2和3模型使用的情况下,优于最先进的方法。我们在文本摘要和代码生成任务中验证了PipeSpec,证明了随着模型深度的增加,流水线效率提高,提供了一种在多设备系统中加速LLM推理的可扩展方法。