摘要
我们引入了ElastiFormer,这是一种后训练技术,可以将预训练的Transformer模型改造成具有可变推理时间计算的弹性模型。ElastiFormer引入了小型路由模块(额外可训练参数低至0.00006%),以根据输入动态选择预训练网络每一层要处理的网络参数和输入token子集。路由模块使用自蒸馏损失进行训练,以最大限度地减少预训练模型及其弹性模型输出之间的差异。由于ElastiFormer不对预训练Transformer模型的模态做出任何假设,因此它可以很容易地应用于所有模态,包括因果语言建模、图像建模以及视觉语言建模任务。我们证明,可以为Transformer层的不同组件节省20%到50%的计算量,通过添加通过相同蒸馏目标训练的非常低秩LoRA权重(秩1),可以进一步减少计算量。最后,通过比较在ImageNet不同子集上训练的路由,我们证明了ElastiFormer对训练域具有鲁棒性。