摘要
arXiv:2409.11228v2 ANNOUNCE 类型: 替换-交叉
摘要:神经音频编解码器通过高效地将连续的音频信号转换为离散的令牌,显著提升了音频压缩效果。这些编解码器能够保留高质量的声波,并通过训练在这些令牌上的生成模型实现复杂的声波生成。然而,现有的神经编解码器模型通常是在大型且未区分的音频数据集上进行训练,忽视了语音、音乐和环境声效等声域之间的重要差异。这种忽视使得数据建模复杂化,并且为声音生成的可控性增加了额外挑战。为解决这些问题,我们引入了源分离神经音频编解码器(SD-Codec),这是一种新颖的方法,结合了音频编码和源分离。通过联合学习音频再合成和分离,SD-Codec 明确地将来自不同域的音频信号分配到不同的字典码表,即一组离散表示。实验结果表明,SD-Codec 不仅保持了竞争性的再合成质量,而且根据分离结果,在潜在空间中实现了不同源的有效分离,从而增强了音频编解码器的可解释性,并可能为音频生成过程提供更精细化的控制。