LLM2D
SALMONN-omni:一种无编解码器的全双工语音理解与生成大型语言模型
SALMONN-omni: A Codec-free LLM for Full-duplex Speech Understanding and Generation
作者: Wenyi Yu, Siyin Wang, Xiaoyu Yang, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Guangzhi Sun, Lu Lu, Yuxuan Wang, Chao Zhang
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2411.18138v1

摘要

全双工多模态大型语言模型(LLM)提供了一个统一的框架来处理各种语音理解和生成任务,从而实现更自然、更无缝的人机对话。与传统的模块化对话式AI系统(将语音识别、理解和文本到语音生成分成不同的组件)不同,多模态LLM作为一个单一的端到端模型运行。这种简化的设计消除了组件间的错误传播,并充分利用了输入语音信号中丰富的非语言信息。我们引入了SALMONN-omni,这是一个无编解码器、全双工语音理解和生成模型,能够在说话的同时同时收听自身生成的语音和背景声音。为了支持此功能,我们提出了一种新颖的全双工口语对话框架,该框架包含一种“思考”机制,该机制利用嵌入而不是编解码器(量化的语音和音频标记)来促进异步文本和语音生成。实验结果证明了SALMONN-omni在各种流式语音任务(包括语音识别、语音增强和口语问答)中的多功能性。此外,SALMONN-omni在管理轮流发言、抢话和回声消除场景方面表现出色,证明了其作为全双工对话式AI系统强大原型的潜力。据我们所知,SALMONN-omni是同类产品中第一个无编解码器的模型。完整的技术报告以及模型检查点将很快发布。