摘要
随着基于大型Transformer的语言模型的规模和成本不断增长,最近人们对将早期Transformer隐藏表示快捷地转换为最终表示以降低模型推理成本产生了兴趣。特别是,用早期层的线性变换来对预训练的Transformer进行快捷处理已被证明可以提高早期推理的精度。然而,对于大型语言模型来说,即使这种方法也会变得计算量很大。在本研究中,我们提出了“跳到结论的窄捷径”(NJTC)和“归一化跳到结论的窄捷径”(N-NJTC)——这两种方法是标准线性快捷处理的节省参数的替代方法,将快捷处理参数数量减少了97%以上。我们表明,N-NJTC 在早期阶段可靠地优于身份快捷处理,并且在 GPT-2-XL、Phi3-Mini 和 Llama2-7B Transformer 模型的所有 Transformer 块级别上都提供了稳定的精度,证明了参数效率更高的快捷处理方法的可行性。