摘要
当前构建具有语音交互能力的 LLM 的方法严重依赖于语音响应生成之前或期间的显式文本自回归生成,以保持内容质量,但这不幸地带来了计算开销并增加了多轮交互的延迟。为了解决这个问题,我们引入了 IntrinsicVoice,一种具有内在实时语音交互能力的 LLM。IntrinsicVoice 旨在通过缩小文本和语音之间的模态差距,促进预训练 LLM 的文本能力向语音模态的转移。我们的新颖架构 GroupFormer 可以将语音序列缩短到与文本序列相当的长度,同时生成高质量音频,从而显著减少语音和文本之间的长度差异,加快推理速度,并缓解长文本建模问题。此外,我们构建了一个名为 \method-500k 的多轮语音到语音对话数据集,其中包含近 500k 轮语音到语音对话,以及一种跨模态训练策略,以增强语音和文本之间的语义一致性。实验结果表明,IntrinsicVoice 可以在多轮对话场景中生成高质量的语音响应,延迟低于 100 毫秒。演示地址:https://instrinsicvoice.github.io/。