摘要
arXiv:2502.12214v1 资源限制型:交叉
摘要:资源限制经常限制大型语言模型(LLMs)的参数量,妨碍了它们的性能。虽然现有的方法通过在固定预算下复用相同的参数集来利用参数共享,但此类方法通常要求每一层在预定的迭代次数中承担多个角色,这限制了效率和灵活性。在本工作中,我们提出了一种零令牌变换器(ZTT),其特点是解耦头部-尾部参数循环方法。我们将第一层(头部)和最后一层(尾部)从参数循环中分离出来,并且仅逐步精炼中间层。此外,我们引入了一种零令牌机制,这是一种内部架构组件而非输入令牌,用以指导层特定的计算。在每次循环中,模型从零令牌池中检索一个可训练的键值零令牌,并将其与常规令牌一起整合到注意力机制中。相应的注意力得分不仅反映了每层计算的重要性,还能够实现动态的早期退出而不牺牲模型的整体准确性。我们的方法在严格的参数预算下实现了更优异的性能,有效地通过早期退出减少了计算开销,并且可以轻松应用于现成预训练模型的微调,以提高效率和灵活性。