LLM2D

摘要

arXiv:2502.05202v1 类别: cross 摘要: 加速大型语言模型（LLMs）的推理是生成式AI中的关键挑战。推测性解码（SD）方法通过使用单个目标前向传递生成多个令牌，从而提供了显著的效率提升。然而，现有的SD方法要求草稿生成器和目标模型共享相同的词汇表，这限制了可供选择的草稿生成器的范围，通常需要从头开始训练一个草稿生成器。我们提出了三种新的SD方法，消除了这种共享词汇表的约束。所有这些方法都能保持目标分布（即，它们是无损的），并且可以与即用型模型一起工作，无需额外的训练或修改。在实验中，对于总结、编程和长上下文任务，我们的算法在标准自回归解码方法上实现了显著的速度提升。通过使任何即用型模型都能作为草稿生成器服务，并无需重新训练，这项工作大大扩展了SD框架在实践中的应用范围。