LLM2D

摘要

当前构建具有语音交互能力的 LLM 的方法严重依赖于语音响应生成之前或期间的显式文本自回归生成，以保持内容质量，但这不幸地带来了计算开销并增加了多轮交互的延迟。为了解决这个问题，我们引入了 IntrinsicVoice，一种具有内在实时语音交互能力的 LLM。IntrinsicVoice 旨在通过缩小文本和语音之间的模态差距，促进预训练 LLM 的文本能力向语音模态的转移。我们的新颖架构 GroupFormer 可以将语音序列缩短到与文本序列相当的长度，同时生成高质量音频，从而显著减少语音和文本之间的长度差异，加快推理速度，并缓解长文本建模问题。此外，我们构建了一个名为 \method-500k 的多轮语音到语音对话数据集，其中包含近 500k 轮语音到语音对话，以及一种跨模态训练策略，以增强语音和文本之间的语义一致性。实验结果表明，IntrinsicVoice 可以在多轮对话场景中生成高质量的语音响应，延迟低于 100 毫秒。演示地址：https://instrinsicvoice.github.io/。