LLM2D

摘要

arXiv:2410.06846v3 宣告类型: 强替换-交叉摘要: 近来，Linformer和Mamba等架构已成为transformer的有竞争力的线性时间替代方案。然而，相应的大型预训练模型往往不可用，尤其是在非文本领域。为了解决这一问题，我们提出了一种跨架构逐层蒸馏(CALD)方法，该方法不仅将transformer模型转换为线性时间替代方案，还能将其微调到目标任务。我们还比较了几种引导微调的方法，以最大限度地保留原始模型的所需推理能力。这些方法在目标模型和参数轨迹的使用上有所不同。在一系列关于语言处理、语言建模和语音处理的实证研究中，我们展示了CALD能够有效地恢复原始模型的结果，并表明引导策略有助于结果。提出了几种导致差异的原因。