摘要
arXiv:2502.06490v2 Announce Type: replace-cross
摘要:在大规模语言模型(LLMs)时代,语音生成技术的快速发展已经确立了离散语音令牌作为语音表示的基础范式。这些令牌以其离散、紧凑和简明的特点,不仅有利于高效传输和存储,还与语言模型框架本就具备的兼容性,使得语音能够无缝集成到以文本为主导的LLM架构中。当前的研究将离散语音令牌分为两类主要类别:声学令牌和语义令牌,每种类别都发展成为具有独特设计理念和方法论方法的研究领域。本文系统地综合了现有的分类体系和离散语音分词的最新创新,对其各自范式的优点和局限性进行了批判性评估,并进行了跨令牌类型系统的实验比较。此外,我们识别了该领域的持续性挑战,并提出潜在的研究方向,旨在提供可操作的见解,以激发离散语音令牌开发和应用的未来进步。