摘要
arXiv:2502.06490v1 交叉公告类型
摘要:随着时间语言模型(LLMs)时代的到来,语音生成技术的迅速发展已经确立了离散语音令牌作为语音表示的基本范式。这些令牌因其离散、紧凑和简洁的特性而具有优势,不仅有利于高效的传输和存储,而且天然与语言建模框架相兼容,使得语音可以无缝集成到以文本为中心的LLM架构中。当前的研究将离散语音令牌分为两类主要类别:声学令牌和语义令牌,每类都发展成为具有独特设计哲学和方法论方法的研究领域。本文系统地综合了现有的分类和离散语音分词的最新创新,对每种范式的优缺点进行了批判性的评估,并进行了跨令牌类型的系统实验比较。此外,我们识别出了该领域中存在的持续挑战,并提出了潜在的研究方向,旨在提供可操作的见解以启发今后离散语音令牌的发展和应用。