LLM2D
编解码器的重要性:探讨音频语言模型中编解码器的语义缺陷
Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model
发布日期: 9/20/2024
arXiv ID: oai:arXiv.org:2408.17175v2

摘要

arXiv:2408.17175v2 公告类型: 替换-交叉 摘要: 近期音频生成技术的显著进步在很大程度上得益于大型语言模型(LLMs)的能力。现有的音频LLM研究主要集中在增强音频语言模型的架构和规模,以及利用更大的数据集,通常使用声学编解码器,如EnCodec,进行音频标记化。然而,这些编解码器最初是为音频压缩设计的,这可能导致在音频LLM的背景下性能不佳。我们的研究旨在解决当前音频LLM编解码器的不足,特别是它们在生成的音频中保持语义完整性的挑战。例如,现有的方法如VALL-E,在文本转录的基础上生成声学标记,由于对声学标记的语义误解,常常导致内容不准确和词错误率(WER)升高,从而出现跳词和错误。为了克服这些问题,我们提出了一种简单而有效的方法,称为X-Codec。X-Codec在残差向量量化(RVQ)阶段之前结合了预训练语义编码器的语义特征,并在RVQ之后引入了语义重建损失。通过增强编解码器的语义能力,X-Codec显著降低了语音合成任务中的WER,并将这些优势扩展到非语音应用,包括音乐和声音生成。我们在文本到语音、音乐续写和文本到声音任务中的实验表明,整合语义信息显著提高了语言模型在音频生成中的整体性能。我们的代码和演示已公开(演示: https://x-codec-audio.github.io 代码: https://github.com/zhenye234/xcodec)