LLM2D
PSLM:基于大型语言模型的文本和语音并行生成用于低延迟语音对话系统
PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems
作者: Kentaro Mitsui, Koh Mitsuda, Toshiaki Wakatsuki, Yukiya Hono, Kei Sawada
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2406.12428v2

摘要

能够处理文本和语音的多模态语言模型在语音对话系统中具有潜在应用价值。然而,当前模型在响应生成延迟方面面临着两大挑战:(1)生成语音响应需要先生成书面响应,(2)语音序列明显长于文本序列。本研究通过扩展语言模型的输入和输出序列来支持文本和语音的并行生成,从而解决了这些问题。我们在语音问答任务上的实验表明,我们的方法在保持响应内容质量的同时提高了延迟。此外,我们还证明了可以通过生成多个语音序列来进一步降低延迟。演示样本可在 https://rinnakk.github.io/research/publications/PSLM 获取。