LLM2D
Jakiro:借助去耦多头MoE增强 speculative decoding
Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE
作者: Haiduo Huang, Fuwei Yang, Zhenhua Liu, Yixing Xu, Jinze Li, Yang Liu, Xuanwu Yin, Dong Li, Pengju Ren, Emad Barsoum
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.06282v1

摘要

arXiv:2502.06282v1 宣告类型: cross 摘要:推测性解码(SD)通过使用较小的草稿模型预测多个令牌,然后由较大的目标模型并行验证这些令牌来加速大型语言模型的推理。然而,草稿模型的有限容量往往需要使用基于树的采样来提高预测准确性,在每一步生成多个候选。我们识别出这种方法的一个关键限制:同一步骤中的候选来源于相同的表示,这限制了多样性和整体效果。为了解决这个问题,我们提出了Jakiro,利用专家混合(MoE),其中独立的专家生成多样化的预测,有效地解耦候选之间的相关性。此外,我们引入了一种混合的推理策略,结合自回归解码用于初始令牌,并行解码用于后续阶段,并通过对比机制增强特征以提高准确性。我们的方法显著提高了预测准确性并实现了更高的推理加速。广泛的实验表明,我们的方法在推测性解码方面具有有效性和鲁棒性,并且建立了新的SOTA。我们的代码可从https://github.com/haiduo/Jakiro获得。