LLM2D

摘要

近年来，诸如 Linformer 和 Mamba 等架构已成为 Transformer 的线性时间替代方案，并具有竞争力。然而，相应的预训练大型模型往往不可用，尤其是在非文本领域。为了解决这个问题，我们提出了一种跨架构逐层蒸馏 (CALD) 方法，该方法将 Transformer 模型转换为线性时间替代模型，并将其微调到目标任务。我们还比较了几种指导微调的方法，以从原始模型中最佳地保留所需的推理能力。这些方法在使用目标模型和参数轨迹方面有所不同。在一系列关于语言处理、语言建模和语音处理的实证研究中，我们表明 CALD 可以有效地恢复原始模型的结果，并且指导策略有助于结果。我们还提出了一些导致结果差异的原因。