LLM2D

摘要

arXiv:2503.23798v1 类型: cross 摘要：各种层跳过方法已被提出以加速大语言模型（LLMs）中的标记生成。然而，它们忽略了这样一个基本问题：不同标记生成时的计算需求如何变化？在此工作中，我们介绍了一种FlexiDepth方法，该方法能够动态调整用于文本生成的Transformer层数量。通过引入一个插件路由器和适配器，FlexiDepth能够在不修改原始参数的情况下实现LLMs的自适应层跳过。将FlexiDepth引入Llama-3-8B模型实现了32层中跳过8层，并同时保持100%的基准性能。实验结果表明，LLMs中计算需求显著依赖于标记类型。具体而言，生成重复标记或固定短语需要较少的层，而生成涉及计算或高不确定性标记则需要更多层。有趣的是，这种自适应分配模式与人类直觉相吻合。为了推进该领域的研究，我们开源了FlexiDepth以及记录了FlexiDepth层分配模式的数据集，供未来探索使用。