LLM2D
预训练LLM中的自适应层跳过
Adaptive Layer-skipping in Pre-trained LLMs
作者: Xuan Luo, Weizhi Wang, Xifeng Yan
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23798v1

摘要

arXiv:2503.23798v1 类型: cross 摘要:各种层跳过方法已被提出以加速大语言模型(LLMs)中的标记生成。然而,它们忽略了这样一个基本问题:不同标记生成时的计算需求如何变化?在此工作中,我们介绍了一种FlexiDepth方法,该方法能够动态调整用于文本生成的Transformer层数量。通过引入一个插件路由器和适配器,FlexiDepth能够在不修改原始参数的情况下实现LLMs的自适应层跳过。将FlexiDepth引入Llama-3-8B模型实现了32层中跳过8层,并同时保持100%的基准性能。实验结果表明,LLMs中计算需求显著依赖于标记类型。具体而言,生成重复标记或固定短语需要较少的层,而生成涉及计算或高不确定性标记则需要更多层。有趣的是,这种自适应分配模式与人类直觉相吻合。为了推进该领域的研究,我们开源了FlexiDepth以及记录了FlexiDepth层分配模式的数据集,供未来探索使用。