LLM2D
预训练语音和语言模型的联合微调和转换:线性复杂度方法
Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity
作者: Mutian He, Philip N. Garner
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.06846v1

摘要

近年来,诸如 Linformer 和 Mamba 等架构已成为 Transformer 的线性时间替代方案,并具有竞争力。然而,相应的预训练大型模型往往不可用,尤其是在非文本领域。为了解决这个问题,我们提出了一种跨架构逐层蒸馏 (CALD) 方法,该方法将 Transformer 模型转换为线性时间替代模型,并将其微调到目标任务。我们还比较了几种指导微调的方法,以从原始模型中最佳地保留所需的推理能力。这些方法在使用目标模型和参数轨迹方面有所不同。在一系列关于语言处理、语言建模和语音处理的实证研究中,我们表明 CALD 可以有效地恢复原始模型的结果,并且指导策略有助于结果。我们还提出了一些导致结果差异的原因。