LLM2D

摘要

arXiv:2505.02625v1 交叉公告类型：跨学科摘要：实时、智能且自然的语音交互是下一代人机交互的关键组成部分。近年来，基于大规模语言模型（LLMs）构建智能语音聊天机器人的潜力得到了彰显。在本文中，我们介绍了LLaMA-Omni 2，这是一系列从0.5B到14B参数的语音语言模型（SpeechLMs），能够实现高质量的实时语音交互。LLaMA-Omni 2 基于Qwen2.5系列模型构建，集成了语音编码器和自回归流式语音解码器。尽管仅在200K个多轮语音对话样本上进行训练，LLaMA-Omni 2 在几个语音问答和语音指令跟随基准测试中表现出了强大的性能，超越了以前的最先进的语音语言模型，例如GLM-4-Voice，后者是在数百万小时的语音数据上进行训练的。