摘要
我们介绍了 Moshi,一个语音-文本基础模型和全双工口语对话框架。当前的口语对话系统依赖于独立组件的流水线,即语音活动检测、语音识别、文本对话和文本到语音。此类框架无法模拟真实对话的体验。首先,它们的复杂性会导致交互之间几秒钟的延迟。其次,文本是对话的中间媒介,修改意义的非语言信息(如情绪或非语音声音)在交互中丢失。最后,它们依赖于对说话人轮次的分割,这没有考虑重叠语音、打断和插入语。Moshi 通过将口语对话视为语音到语音生成来解决这些独立问题。从文本语言模型主干开始,Moshi 从神经音频编解码器的残差量化器生成语音作为标记,同时分别将自身语音和用户语音建模为并行流。这允许删除显式说话人轮次,并对任意对话动态进行建模。此外,我们将之前工作的分层语义到声学标记生成扩展到首先预测时间对齐的文本标记作为音频标记的前缀。这种“内心独白”方法不仅显着提高了生成的语音的语言质量,而且我们还说明了它如何提供流式语音识别和文本到语音。我们得到的模型是第一个实时全双工口语大型语言模型,理论延迟为 160 毫秒,实际延迟为 200 毫秒,可在 https://github.com/kyutai-labs/moshi 获取。