LLM2D

摘要

近年来，大型语言模型 (LLM) 极大地推动了音频生成技术的发展。现有的音频LLM研究主要集中于改进音频语言模型的架构和规模，以及利用更大的数据集，通常采用EnCodec等声学编解码器进行音频标记化。然而，这些编解码器最初是为音频压缩而设计的，这可能会导致音频LLM性能欠佳。我们的研究旨在解决当前音频LLM编解码器的不足，特别是它们在保持生成音频语义完整性方面面临的挑战。例如，现有的方法，如VALL-E，其声学标记生成以文本转录为条件，由于对声学标记的语义误解，常常导致内容不准确和词错误率 (WER) 升高，从而出现跳词和错误。为了克服这些问题，我们提出了一种简单而有效的方法，称为X-Codec。X-Codec在残差矢量量化 (RVQ) 阶段之前结合了来自预训练语义编码器的语义特征，并在RVQ之后引入语义重构损失。通过增强编解码器的语义能力，X-Codec显著降低了语音合成任务中的WER，并将这些优势扩展到非语音应用，包括音乐和声音生成。我们在文本转语音、音乐续写和文本转声音任务中的实验表明，集成语义信息大大提高了语言模型在音频生成中的整体性能。我们的代码和演示已上线（演示：https://x-codec-audio.github.io 代码：https://github.com/zhenye234/xcodec）。