LLM2D
VocalNet:多token预测的语音LLM,实现更快更高质量的生成
VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation
作者: Yuhao Wang, Heyang Liu, Ziyang Cheng, Ronghua Wu, Qunshan Gu, Yanfeng Wang, Yu Wang
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04060v1

摘要

arXiv:2504.04060v1 Announce Type: cross 摘要:语音大型语言模型(LLMs)已成为语音处理领域的研究重点。我们提出了VocalNet-1B 和 VocalNet-8B,这是一个通过可扩展且模型无关的训练框架实现的高性能、低延迟语音LLMs系列,旨在支持实时语音交互。我们摒弃了传统的下一个token预测(NTP),引入了多token预测(MTP),这是一种针对语音LLMs优化的新方法,能够同时提高生成速度和质量。实验表明,尽管使用了显著较少的训练数据,VocalNet 在主流的Omni LLMs 中表现更优,同时在现有开源语音LLMs 上也取得了显著的领先优势。为了支持可重复性和社区进步,我们在发表时将开源所有模型权重、推理代码、训练数据和框架实现。