摘要
arXiv:2503.23798v2 层级跳过类型:替换交叉
摘要:为加快大型语言模型(LLMs)中的标记生成,已经提出了各种层级跳过方法。然而,这些方法忽视了一个基本问题:在生成不同标记时,计算需求如何变化?在本文中,我们介绍了FlexiDepth方法,该方法动态调整用于文本生成的Transformer层数量。通过引入插件路由器和适配器,FlexiDepth能够在不修改LLM原始参数的情况下实现自适应层级跳过。将FlexiDepth应用于Llama-3-8B模型,实现了从32层中跳过8层,并同时保持100%的基准性能。FlexiDepth的实验结果表明,LLM中的计算需求显著取决于标记类型。具体来说,生成重复标记或固定短语需要较少的层,而产生涉及计算或高不确定性的标记则需要更多的层。有趣的是,这种自适应分配模式与人类直觉相符。为了促进该领域的研究,我们开源了FlexiDepth以及记录FlexiDepth层级分配模式的数据集,以供未来研究。