摘要
arXiv:2410.06846v3 宣告类型: 强替换-交叉
摘要: 近来,Linformer和Mamba等架构已成为transformer的有竞争力的线性时间替代方案。然而,相应的大型预训练模型往往不可用,尤其是在非文本领域。为了解决这一问题,我们提出了一种跨架构逐层蒸馏(CALD)方法,该方法不仅将transformer模型转换为线性时间替代方案,还能将其微调到目标任务。我们还比较了几种引导微调的方法,以最大限度地保留原始模型的所需推理能力。这些方法在目标模型和参数轨迹的使用上有所不同。在一系列关于语言处理、语言建模和语音处理的实证研究中,我们展示了CALD能够有效地恢复原始模型的结果,并表明引导策略有助于结果。提出了几种导致差异的原因。