LLM2D

摘要

近年来，语音分离研究主要集中在提高模型性能方面。然而，对于低延迟语音处理系统，高效率同样重要。因此，我们提出了一种参数和计算成本显著降低的语音分离模型：时频交织增益提取和重建网络（TIGER）。TIGER 利用先验知识划分频带并压缩频域信息。我们采用多尺度选择性注意力模块来提取上下文特征，同时引入全频帧注意力模块来捕获时间和频率上下文信息。此外，为了更真实地评估语音分离模型在复杂声学环境中的性能，我们引入了一个名为 EchoSet 的数据集。该数据集包含噪声和更真实的混响（例如，考虑物体遮挡和材料特性），以及来自两个说话者的语音以随机比例重叠。实验结果表明，在 EchoSet 上训练的模型比在其他数据集上训练的模型具有更好的泛化能力，可以更好地处理在物理世界中收集的数据，这验证了 EchoSet 的实际价值。在 EchoSet 和真实世界数据上，TIGER 将参数数量减少了 94.3%，将 MACs 减少了 95.3%，同时实现了超越最先进（SOTA）模型 TF-GridNet 的性能。这是第一个参数少于 100 万个的语音分离模型，其性能与 SOTA 模型相当。