摘要
arXiv:2503.23439v1 宣告类型: cross
摘要:由大型语言模型驱动的语音对话系统在理解人类语音和生成合适的语音响应方面展现了非凡的能力。然而,这些系统在结束轮次检测(ETD)方面存在局限性——即区分用户轮次结束和犹豫的能力。这一局限性往往导致响应过早或延迟,破坏了语音对话的流畅性。在本文中,我们引入了ETD数据集,这是首个公开的结束轮次检测数据集。ETD数据集包含使用文本到语音模型生成的合成语音数据和从网络来源收集的真实语音数据。我们还提出了一种名为SpeculativeETD的新颖协作推理框架,该框架平衡了效率和准确性,以提高资源有限环境中的实时ETD。我们的方法联合使用了一个基于轻量级GRU的模型,在本地设备上实时快速检测非说话单元,以及一个在服务器上运行的高性能Wav2vec模型,以进行更具有挑战性的区分终结轮次与仅暂停的分类。实验表明,提出的SpeculativeETD在保持所需计算量较低的情况下显著提高了ETD的准确性。数据集和代码将在审稿后提供。