LLM2D

摘要

arXiv:2504.13984v1 类型: 交叉摘要: 为了减少大型语言模型推理的时间和计算成本，人们对其参数效率低秩早期退出方法产生了兴趣，该方法将变换器隐表示提前转换为最终表示。研究表明，在模型早期阶段，这种低秩捷径比恒等捷径效果更好，并且在捷径跳跃中具有参数效率。然而，当前的低秩方法在推理过程中为每个变换器中间层级维护一个独立的早期退出捷径。在本文中，我们提出了一种单一的“一跳适合所有”（One-Jump-Fits-All，简称OJFA）低秩捷径的选择，该捷径在推理过程中的捷径参数成本可以减少超过30倍。尽管这种极端的减少，我们选择的OJFA方案在推理过程中仍然与维护多个捷径跳跃的效果相当，并且对于GPT2-XL、Phi3-Mini和Llama2-7B变换器模型，所有变换器层级别的精度都是稳定的。