摘要
arXiv:2504.04060v2 宣传类型: 替换-交叉
摘要:语音大语言模型(LLMs)已成为语音处理领域的研究重点。我们介绍了VocalNet-1B和VocalNet-8B,这一系列高性能、低延迟的语音LLMs,它们得益于一个为实时语音交互设计的可扩展且模型无关的训练框架。我们贡献的核心在于,首次将多令牌预测(MTP)应用到语音LLMs中。这种方法在标准的下一个令牌预测(NTP)的基础上进行了范式的转变,同时提高了生成速度和质量。受到MTP对语音生成影响的分析及实验比较的启发,我们设计了一种简单有效的MTP实现。实验表明,即使训练数据有限,VocalNet的表现也与主流的Omni LLMs相当,而且显著超越现有的开源语音LLMs。为促进可再现性和社区进步,所有模型权重、推理代码、训练数据和框架实现均已公开发布在https://github.com/SJTU-OmniAgent/VocalNet