摘要
arXiv:2505.00028v1 种类: cross
摘要: 近年来,由于能够实现更低的延迟并更好地整合诸如情感和讲话者身份等非言语线索,端到端语音到语音(S2S)对话系统获得了越来越多的研究关注,超越了传统的多级系统。然而,这些端到端系统面临着关键挑战,特别是在整合外部知识方面,这一能力通常通过文本基础的大语言模型(LLMs)中的检索增强生成(RAG)来实现。核心难点在于输入语音和检索到的文本知识之间存在的模态差距,这妨碍了有效整合。为了解决这个问题,我们提出了一种新的端到端RAG框架,可以直接从语音查询中检索相关的文本知识,从而消除通过ASR等技术进行中间语音到文本转换的需要。实验结果表明,我们的方法显著提高了端到端S2S对话系统的性能,同时实现了更高的检索效率。虽然整体性能仍在多级模型之后,但我们的框架为提高端到端S2S系统中的知识整合提供了有前景的方向。我们将会发布代码和数据集以支持可再现性并促进该领域的进一步研究。