摘要
arXiv:2502.11946v1 交叉领域公告类型:跨领域
摘要:实时语音交互作为人机协作的基础接口,具有巨大的潜力。然而,当前开源模型面临语音数据采集成本高、动态控制能力弱、智能水平有限等问题。为了解决这些挑战,本文介绍了Step-Audio,这是第一个生产就绪的开源解决方案。主要贡献包括:1) 一个包含130B参数的统一语音-文本多模态模型,实现了统一的理解和生成,集成了Step-Audio-Chat版本;2) 生成语音数据引擎,建立了可负担的语音克隆框架,并通过蒸馏生成了轻量级的Step-Audio-TTS-3B开源模型;3) 以指令驱动的精细控制系统,能够动态调整方言、情感、唱歌和饶舌;4) 增强的认知架构,增强了工具调用和角色扮演能力,以有效管理复杂任务。基于我们新的StepEval-Audio-360评估基准,Step-Audio在人工评估中达到了最先进的性能,特别是在指令遵循方面。在像LLaMA Question这样的开源基准中,平均性能提高了9.3%,展示了我们致力于推动开放源代码多模态语言技术发展的决心。我们的代码和模型可在https://github.com/stepfun-ai/Step-Audio获取。