LLM2D

摘要

arXiv:2502.12900v1 交叉公告类型摘要：现有的端到端语音大规模语言模型（LLMs）通常依赖大规模标注数据进行训练，而数据高效训练尚未得到深入探讨。我们集中关注语音和文本之间的两个基本问题：表示空间差距和序列长度不一致。我们提出了Soundwave，这是一种利用高效训练策略和全新架构来解决这些问题的方法。结果表明，在语音翻译和AIR-Bench语音任务中，Soundwave仅使用五分之一的训练数据就超过了先进的Qwen2-Audio。进一步的分析显示，Soundwave在对话中仍能保持其智能性。该项目可在 https://github.com/FreedomIntelligence/Soundwave 查看。