摘要
arXiv:2502.14856v1 宣告类型: cross
摘要: 占测性采样已成为一种重要的技术,通过利用先草后验机制,在每次前向传递中生成多个令牌来加速大型语言模型(LLMs)的自回归生成过程。虽然目前最先进的占测性采样方法仅使用一层和一个语言模型(LM)头作为草稿模型以实现显著的层压缩,但它们在大词汇量LLMs中的效率收益大大降低,例如词汇量为128k个令牌的Llama-3-8B。为了解决这个问题,我们提出了一种基于频率排序的占测性采样框架FR-Spec,该框架通过词汇空间压缩来优化草稿候选者的选取。通过将草稿搜索限制在一个频率优先的令牌子集中,我们的方法将LM头的计算开销减少了75%,同时确保最终输出分布的等价性。跨多个数据集的实验结果显示,与目前最先进的占测性采样方法EAGLE-2相比,平均实现了1.12倍的加速。