LLM2D
LLaMA-Omni2:基于LLM的实时语音聊天机器人,具备自回归流式语音合成
LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis
作者: Qingkai Fang, Yan Zhou, Shoutao Guo, Shaolei Zhang, Yang Feng
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.02625v1

摘要

arXiv:2505.02625v1 交叉公告类型:跨学科 摘要:实时、智能且自然的语音交互是下一代人机交互的关键组成部分。近年来,基于大规模语言模型(LLMs)构建智能语音聊天机器人的潜力得到了彰显。在本文中,我们介绍了LLaMA-Omni 2,这是一系列从0.5B到14B参数的语音语言模型(SpeechLMs),能够实现高质量的实时语音交互。LLaMA-Omni 2 基于Qwen2.5系列模型构建,集成了语音编码器和自回归流式语音解码器。尽管仅在200K个多轮语音对话样本上进行训练,LLaMA-Omni 2 在几个语音问答和语音指令跟随基准测试中表现出了强大的性能,超越了以前的最先进的语音语言模型,例如GLM-4-Voice,后者是在数百万小时的语音数据上进行训练的。