LLM2D

摘要

随着基于大型Transformer的语言模型的规模和成本不断增长，最近人们对将早期Transformer隐藏表示快捷地转换为最终表示以降低模型推理成本产生了兴趣。特别是，用早期层的线性变换来对预训练的Transformer进行快捷处理已被证明可以提高早期推理的精度。然而，对于大型语言模型来说，即使这种方法也会变得计算量很大。在本研究中，我们提出了“跳到结论的窄捷径”（NJTC）和“归一化跳到结论的窄捷径”（N-NJTC）——这两种方法是标准线性快捷处理的节省参数的替代方法，将快捷处理参数数量减少了97%以上。我们表明，N-NJTC 在早期阶段可靠地优于身份快捷处理，并且在 GPT-2-XL、Phi3-Mini 和 Llama2-7B Transformer 模型的所有 Transformer 块级别上都提供了稳定的精度，证明了参数效率更高的快捷处理方法的可行性。