LLM2D

摘要

arXiv:2504.04060v1 Announce Type: cross 摘要：语音大型语言模型（LLMs）已成为语音处理领域的研究重点。我们提出了VocalNet-1B 和 VocalNet-8B，这是一个通过可扩展且模型无关的训练框架实现的高性能、低延迟语音LLMs系列，旨在支持实时语音交互。我们摒弃了传统的下一个token预测（NTP），引入了多token预测（MTP），这是一种针对语音LLMs优化的新方法，能够同时提高生成速度和质量。实验表明，尽管使用了显著较少的训练数据，VocalNet 在主流的Omni LLMs 中表现更优，同时在现有开源语音LLMs 上也取得了显著的领先优势。为了支持可重复性和社区进步，我们在发表时将开源所有模型权重、推理代码、训练数据和框架实现。