LLM2D

摘要

我们介绍了 Moshi，一个语音-文本基础模型和全双工对话框架。现有的语音对话系统依赖于独立组件的流水线，即语音活动检测、语音识别、文本对话和文本到语音。这种框架无法模拟真实对话的体验。首先，它们的复杂性导致交互之间存在几秒钟的延迟。其次，文本是对话的中间媒介，修饰语义的非语言信息（如情绪或非语音声音）在交互中丢失。最后，它们依赖于对说话者轮次的分割，这没有考虑到重叠语音、打断和插话。Moshi 通过将语音对话视为语音到语音生成来解决这些独立问题。从文本语言模型骨干开始，Moshi 从神经音频编解码器的残差量化器中生成语音作为标记，同时将自己的语音和用户的语音分别建模为并行流。这允许去除显式的说话者轮次，并对任意对话动态进行建模。此外，我们将之前工作中的分层语义到声学标记生成扩展到首先预测时间对齐的文本标记作为音频标记的前缀。这种“内心独白”方法不仅显著提高了生成语音的语言质量，而且我们还说明了它如何提供流式语音识别和文本到语音。我们最终的模型是第一个实时全双工语音大型语言模型，理论延迟为 160 毫秒，实际延迟为 200 毫秒，可在 https://github.com/kyutai-labs/moshi 获取。