LLM2D
TIGER:用于高效语音分离的时频交织增益提取和重构
TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation
作者: Mohan Xu, Kai Li, Guo Chen, Xiaolin Hu
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01469v1

摘要

近年来,语音分离研究主要集中在提高模型性能方面。然而,对于低延迟语音处理系统,高效率同样重要。因此,我们提出了一种参数和计算成本显著降低的语音分离模型:时频交织增益提取和重建网络(TIGER)。TIGER 利用先验知识划分频带并压缩频域信息。我们采用多尺度选择性注意力模块来提取上下文特征,同时引入全频帧注意力模块来捕获时间和频率上下文信息。此外,为了更真实地评估语音分离模型在复杂声学环境中的性能,我们引入了一个名为 EchoSet 的数据集。该数据集包含噪声和更真实的混响(例如,考虑物体遮挡和材料特性),以及来自两个说话者的语音以随机比例重叠。实验结果表明,在 EchoSet 上训练的模型比在其他数据集上训练的模型具有更好的泛化能力,可以更好地处理在物理世界中收集的数据,这验证了 EchoSet 的实际价值。在 EchoSet 和真实世界数据上,TIGER 将参数数量减少了 94.3%,将 MACs 减少了 95.3%,同时实现了超越最先进(SOTA)模型 TF-GridNet 的性能。这是第一个参数少于 100 万个的语音分离模型,其性能与 SOTA 模型相当。