摘要
arXiv:2502.11018v1 类别: cross
摘要: 费猜解码通过同时生成多个草稿令牌来加速大型语言模型(LLMs)的推理。然而,现有方法往往在训练和解码阶段之间面临令牌对齐问题,限制了它们的性能。为此,我们提出了一种名为GRIFFIN的新型框架,该框架结合了一种可对齐的训练策略和一种可对齐的草稿模型,以减轻对齐问题。可对齐的训练策略采用丢失掩蔽机制,在训练时排除高度对齐不良的令牌,防止它们对草稿模型的优化产生负面影响。可对齐的草稿模型引入输入令牌以纠正生成特征的一致性问题。在LLaMA系列和Vicuna模型上的实验表明,GRIFFIN在平均接受长度上提高了超过7%,并实现了超过8%的速度提升,如图1(a)和(b)所示,优于当前最先进的方法。