摘要
arXiv:2504.04949v1 宣告类型: cross
摘要:神经音频编解码器由于其压缩高保真音频并生成可用于下游生成建模任务的离散标记的能力而最近得到了广泛关注。然而,目前领先的方案往往依赖于资源密集型模型和多量化器架构,这导致了显著的计算开销和受限的实际应用性。在本文中,我们提出了一种名为SQCodec的轻量级神经音频编解码器,该编解码器利用单一量化器来解决这些限制。SQCodec探索了简化卷积网络和局部Transformer模块,同时引入了一种名为TConv的新机制,该机制旨在跨多个时间尺度捕捉声学变化,从而在降低模型复杂性的同时提高重建保真度。在各种数据集上的广泛实验表明,SQCodec在音质方面与多量化器基准相当,而其单一量化器设计增强了适应性,并且其轻量级架构将资源消耗降低了十倍之多。源代码可在https://github.com/zhai-lw/SQCodec公开获取。