摘要
arXiv:2502.14727v1 宣告类型: cross
摘要: 由于其能够增强大型语言模型(LLM)整合外部知识的能力,检索增强生成(RAG)已得到广泛应用。然而,现有的 RAG 框架主要针对文本基的 LLM,并依赖于自动语音识别(ASR)处理语音输入,这会丢弃关键的音频信息、增加转录错误风险,并增加计算负担。因此,我们提出了 WavRAG,这是第一个具有原生端到端音频支持的检索增强生成框架。WavRAG 提供了两个关键特性:1) 跳过 ASR,WavRAG 直接处理原始音频以进行嵌入和检索;2) WavRAG 将音频和文本整合为统一的知识表示。具体来说,我们提出了 WavRetriever 来促进从文本-音频混合知识库中检索,并通过将思考过程推理整合到其中来进一步提高口语对话模型的上下文能力。与最先进的 ASR-Text RAG 管道相比,WavRAG 在检索性能上达到可比水平的同时,实现了10倍的加速。此外,WavRAG 的独特文本-音频混合检索能力将 RAG 的边界扩展到了音频模态。