摘要
能够处理文本和语音的多模态语言模型在语音对话系统中具有潜在应用价值。然而,当前模型在响应生成延迟方面面临着两大挑战:(1)生成语音响应需要先生成书面响应,(2)语音序列明显长于文本序列。本研究通过扩展语言模型的输入和输出序列来支持文本和语音的并行生成,从而解决了这些问题。我们在语音问答任务上的实验表明,我们的方法在保持响应内容质量的同时提高了延迟。此外,我们还证明了可以通过生成多个语音序列来进一步降低延迟。演示样本可在 https://rinnakk.github.io/research/publications/PSLM 获取。