摘要
arXiv:2502.05202v1 类别: cross
摘要: 加速大型语言模型(LLMs)的推理是生成式AI中的关键挑战。推测性解码(SD)方法通过使用单个目标前向传递生成多个令牌,从而提供了显著的效率提升。然而,现有的SD方法要求草稿生成器和目标模型共享相同的词汇表,这限制了可供选择的草稿生成器的范围,通常需要从头开始训练一个草稿生成器。我们提出了三种新的SD方法,消除了这种共享词汇表的约束。所有这些方法都能保持目标分布(即,它们是无损的),并且可以与即用型模型一起工作,无需额外的训练或修改。在实验中,对于总结、编程和长上下文任务,我们的算法在标准自回归解码方法上实现了显著的速度提升。通过使任何即用型模型都能作为草稿生成器服务,并无需重新训练,这项工作大大扩展了SD框架在实践中的应用范围。