摘要
近年来,大型语言模型 (LLM) 极大地推动了音频生成技术的发展。现有的音频LLM研究主要集中于改进音频语言模型的架构和规模,以及利用更大的数据集,通常采用EnCodec等声学编解码器进行音频标记化。然而,这些编解码器最初是为音频压缩而设计的,这可能会导致音频LLM性能欠佳。我们的研究旨在解决当前音频LLM编解码器的不足,特别是它们在保持生成音频语义完整性方面面临的挑战。例如,现有的方法,如VALL-E,其声学标记生成以文本转录为条件,由于对声学标记的语义误解,常常导致内容不准确和词错误率 (WER) 升高,从而出现跳词和错误。为了克服这些问题,我们提出了一种简单而有效的方法,称为X-Codec。X-Codec在残差矢量量化 (RVQ) 阶段之前结合了来自预训练语义编码器的语义特征,并在RVQ之后引入语义重构损失。通过增强编解码器的语义能力,X-Codec显著降低了语音合成任务中的WER,并将这些优势扩展到非语音应用,包括音乐和声音生成。我们在文本转语音、音乐续写和文本转声音任务中的实验表明,集成语义信息大大提高了语言模型在音频生成中的整体性能。我们的代码和演示已上线(演示:https://x-codec-audio.github.io 代码:https://github.com/zhenye234/xcodec)。