LLM2D

摘要

全双工多模态大型语言模型（LLM）提供了一个统一的框架来处理各种语音理解和生成任务，从而实现更自然、更无缝的人机对话。与传统的模块化对话式AI系统（将语音识别、理解和文本到语音生成分成不同的组件）不同，多模态LLM作为一个单一的端到端模型运行。这种简化的设计消除了组件间的错误传播，并充分利用了输入语音信号中丰富的非语言信息。我们引入了SALMONN-omni，这是一个无编解码器、全双工语音理解和生成模型，能够在说话的同时同时收听自身生成的语音和背景声音。为了支持此功能，我们提出了一种新颖的全双工口语对话框架，该框架包含一种“思考”机制，该机制利用嵌入而不是编解码器（量化的语音和音频标记）来促进异步文本和语音生成。实验结果证明了SALMONN-omni在各种流式语音任务（包括语音识别、语音增强和口语问答）中的多功能性。此外，SALMONN-omni在管理轮流发言、抢话和回声消除场景方面表现出色，证明了其作为全双工对话式AI系统强大原型的潜力。据我们所知，SALMONN-omni是同类产品中第一个无编解码器的模型。完整的技术报告以及模型检查点将很快发布。