LLM2D

摘要

arXiv:2408.17175v2 公告类型: 替换-交叉摘要: 近期音频生成技术的显著进步在很大程度上得益于大型语言模型（LLMs）的能力。现有的音频LLM研究主要集中在增强音频语言模型的架构和规模，以及利用更大的数据集，通常使用声学编解码器，如EnCodec，进行音频标记化。然而，这些编解码器最初是为音频压缩设计的，这可能导致在音频LLM的背景下性能不佳。我们的研究旨在解决当前音频LLM编解码器的不足，特别是它们在生成的音频中保持语义完整性的挑战。例如，现有的方法如VALL-E，在文本转录的基础上生成声学标记，由于对声学标记的语义误解，常常导致内容不准确和词错误率（WER）升高，从而出现跳词和错误。为了克服这些问题，我们提出了一种简单而有效的方法，称为X-Codec。X-Codec在残差向量量化（RVQ）阶段之前结合了预训练语义编码器的语义特征，并在RVQ之后引入了语义重建损失。通过增强编解码器的语义能力，X-Codec显著降低了语音合成任务中的WER，并将这些优势扩展到非语音应用，包括音乐和声音生成。我们在文本到语音、音乐续写和文本到声音任务中的实验表明，整合语义信息显著提高了语言模型在音频生成中的整体性能。我们的代码和演示已公开（演示: https://x-codec-audio.github.io 代码: https://github.com/zhenye234/xcodec）