LLM2D
声波:对于LLMs中的语音-文本对齐,“少即是多”
Soundwave: Less is More for Speech-Text Alignment in LLMs
作者: Yuhao Zhang, Zhiheng Liu, Fan Bu, Ruiyu Zhang, Benyou Wang, Haizhou Li
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12900v1

摘要

arXiv:2502.12900v1 交叉公告类型 摘要:现有的端到端语音大规模语言模型(LLMs)通常依赖大规模标注数据进行训练,而数据高效训练尚未得到深入探讨。我们集中关注语音和文本之间的两个基本问题:表示空间差距和序列长度不一致。我们提出了Soundwave,这是一种利用高效训练策略和全新架构来解决这些问题的方法。结果表明,在语音翻译和AIR-Bench语音任务中,Soundwave仅使用五分之一的训练数据就超过了先进的Qwen2-Audio。进一步的分析显示,Soundwave在对话中仍能保持其智能性。该项目可在 https://github.com/FreedomIntelligence/Soundwave 查看。