LLM2D

摘要

arXiv:2503.23798v2 层级跳过类型：替换交叉摘要：为加快大型语言模型（LLMs）中的标记生成，已经提出了各种层级跳过方法。然而，这些方法忽视了一个基本问题：在生成不同标记时，计算需求如何变化？在本文中，我们介绍了FlexiDepth方法，该方法动态调整用于文本生成的Transformer层数量。通过引入插件路由器和适配器，FlexiDepth能够在不修改LLM原始参数的情况下实现自适应层级跳过。将FlexiDepth应用于Llama-3-8B模型，实现了从32层中跳过8层，并同时保持100%的基准性能。FlexiDepth的实验结果表明，LLM中的计算需求显著取决于标记类型。具体来说，生成重复标记或固定短语需要较少的层，而产生涉及计算或高不确定性的标记则需要更多的层。有趣的是，这种自适应分配模式与人类直觉相符。为了促进该领域的研究，我们开源了FlexiDepth以及记录FlexiDepth层级分配模式的数据集，以供未来研究。