摘要
arXiv:2409.14091v1 公告类型: 新 摘要: 随着基于变压器的大型语言模型的规模和成本不断增加,最近人们对将早期变压器隐藏表示直接映射到最终表示以降低模型推理成本的捷径方法产生了兴趣。特别是,通过在早期层上使用线性变换来捷径预训练变压器,已被证明可以提高早期推理的精度。然而,对于大型语言模型,即使这种方法也变得计算昂贵。在这项工作中,我们提出了窄跳结论(NJTC)和归一化窄跳结论(N-NJTC)——一种参数高效的替代标准线性捷径方法,将捷径参数数量减少了超过97%。我们展示了N-NJTC在早期阶段可靠地优于恒等捷径,并为GPT-2-XL、Phi3-Mini和Llama2-7B变压器模型提供了从所有变压器块层级稳定的精度,证明了更参数高效的捷径方法的可行性。