摘要
arXiv:2505.02625v1 交叉公告类型:跨学科
摘要:实时、智能且自然的语音交互是下一代人机交互的关键组成部分。近年来,基于大规模语言模型(LLMs)构建智能语音聊天机器人的潜力得到了彰显。在本文中,我们介绍了LLaMA-Omni 2,这是一系列从0.5B到14B参数的语音语言模型(SpeechLMs),能够实现高质量的实时语音交互。LLaMA-Omni 2 基于Qwen2.5系列模型构建,集成了语音编码器和自回归流式语音解码器。尽管仅在200K个多轮语音对话样本上进行训练,LLaMA-Omni 2 在几个语音问答和语音指令跟随基准测试中表现出了强大的性能,超越了以前的最先进的语音语言模型,例如GLM-4-Voice,后者是在数百万小时的语音数据上进行训练的。