LLM2D
FR-Spec:通过频率排名推测采样加速大词汇量语言模型
FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling
作者: Weilin Zhao, Tengyu Pan, Xu Han, Yudi Zhang, Ao Sun, Yuxiang Huang, Kaihuo Zhang, Weilun Zhao, Yuxuan Li, Jianyong Wang, Zhiyuan Liu, Maosong Sun
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14856v1

摘要

arXiv:2502.14856v1 宣告类型: cross 摘要: 占测性采样已成为一种重要的技术,通过利用先草后验机制,在每次前向传递中生成多个令牌来加速大型语言模型(LLMs)的自回归生成过程。虽然目前最先进的占测性采样方法仅使用一层和一个语言模型(LM)头作为草稿模型以实现显著的层压缩,但它们在大词汇量LLMs中的效率收益大大降低,例如词汇量为128k个令牌的Llama-3-8B。为了解决这个问题,我们提出了一种基于频率排序的占测性采样框架FR-Spec,该框架通过词汇空间压缩来优化草稿候选者的选取。通过将草稿搜索限制在一个频率优先的令牌子集中,我们的方法将LM头的计算开销减少了75%,同时确保最终输出分布的等价性。跨多个数据集的实验结果显示,与目前最先进的占测性采样方法EAGLE-2相比,平均实现了1.12倍的加速。