摘要
语音助手(如 Siri 和 Google Assistant)通常分别对音频和文本进行建模,导致语音信息丢失和复杂度增加。最近,人们试图通过使用监督微调 (SFT) 训练端到端语音大型语言模型 (LLM) 来解决这个问题,但导致模型“遗忘”了仅文本 LLM 的能力。我们的工作提出了一种替代范式,使用仅文本 LLM 对转录文本的响应作为自监督来训练语音 LLM,而无需指令数据。重要的是,此过程可以在没有标注响应的情况下进行。我们证明了我们的蒸馏语音助手 (DiVA) 可以推广到口语问答、分类和翻译。此外,我们还表明,尽管 DiVA 使用的训练计算量少于 Qwen 2 Audio 等最先进模型的 100 倍,但它更能满足用户偏好,在与最先进模型的比较中取得了 72% 的胜率。