LLM2D

摘要

语音助手（如 Siri 和 Google Assistant）通常分别对音频和文本进行建模，导致语音信息丢失和复杂度增加。最近，人们试图通过使用监督微调 (SFT) 训练端到端语音大型语言模型 (LLM) 来解决这个问题，但导致模型“遗忘”了仅文本 LLM 的能力。我们的工作提出了一种替代范式，使用仅文本 LLM 对转录文本的响应作为自监督来训练语音 LLM，而无需指令数据。重要的是，此过程可以在没有标注响应的情况下进行。我们证明了我们的蒸馏语音助手 (DiVA) 可以推广到口语问答、分类和翻译。此外，我们还表明，尽管 DiVA 使用的训练计算量少于 Qwen 2 Audio 等最先进模型的 100 倍，但它更能满足用户偏好，在与最先进模型的比较中取得了 72% 的胜率。