LLM2D

摘要

arXiv:2502.14856v1 宣告类型: cross 摘要: 占测性采样已成为一种重要的技术，通过利用先草后验机制，在每次前向传递中生成多个令牌来加速大型语言模型（LLMs）的自回归生成过程。虽然目前最先进的占测性采样方法仅使用一层和一个语言模型（LM）头作为草稿模型以实现显著的层压缩，但它们在大词汇量LLMs中的效率收益大大降低，例如词汇量为128k个令牌的Llama-3-8B。为了解决这个问题，我们提出了一种基于频率排序的占测性采样框架FR-Spec，该框架通过词汇空间压缩来优化草稿候选者的选取。通过将草稿搜索限制在一个频率优先的令牌子集中，我们的方法将LM头的计算开销减少了75%，同时确保最终输出分布的等价性。跨多个数据集的实验结果显示，与目前最先进的占测性采样方法EAGLE-2相比，平均实现了1.12倍的加速。