摘要
arXiv:2412.12639v3 宣告类型:替换横跨
摘要:在推测性解码中,如何在最小化编排延迟和提高推测准确性以增强大型语言模型的推理速度之间取得最佳平衡,仍然是一个重大挑战。在本文中,我们介绍了一种名为Falcon的创新半自回归推测性解码框架,旨在增强编排者的并行性和输出质量。Falcon结合了连接顺序凝视蒸馏技术,该技术增强了同一块内的令牌间依赖性,从而提高了推测准确性。我们提供了全面的理论分析以阐明其背后的机制。此外,我们引入了一种自定义解码树,该树允许编排者在单次前向传递中生成多个令牌,并在需要时容纳多个前向传递,从而增加生成的令牌数量,显著提高整体接受率。基准数据集MT-Bench、HumanEval和GSM8K上的全面评估表明,Falcon具有优越的加速能力。该框架在测试Vicuna和LLaMA2-Chat模型系列时,实现了无损加速比从2.91倍到3.51倍,而使用的是仅仅相当于两个Transformer层的紧凑编排者架构。这些结果超越了现有的为LLM设计的推测性解码方法,包括Eagle、Medusa、Lookahead、SPS和PLD。