摘要
arXiv:2502.12900v1 交叉公告类型
摘要:现有的端到端语音大规模语言模型(LLMs)通常依赖大规模标注数据进行训练,而数据高效训练尚未得到深入探讨。我们集中关注语音和文本之间的两个基本问题:表示空间差距和序列长度不一致。我们提出了Soundwave,这是一种利用高效训练策略和全新架构来解决这些问题的方法。结果表明,在语音翻译和AIR-Bench语音任务中,Soundwave仅使用五分之一的训练数据就超过了先进的Qwen2-Audio。进一步的分析显示,Soundwave在对话中仍能保持其智能性。该项目可在 https://github.com/FreedomIntelligence/Soundwave 查看。