摘要
arXiv:2504.05657v1 宣称类型: cross
摘要:语音基础模型通过提供卓越的表示能力,显著推进了各种语音相关的任务。然而,它们的高维输出特征往往与下游任务模型所需的低维输入存在不匹配,这些下游任务模型通常需要较低维度的输入。一个常见的解决方案是应用降维(DR)层,但这种方法会增加参数开销,增加计算成本,并且可能会损失有价值的信息。为了解决这些问题,我们提出了一种名为Nested Res2Net(Nes2Net)的轻量级后端架构,该架构设计用于直接处理高维特征而不使用DR层。嵌套结构增强了多尺度特征提取,提高了特征交互,并保留了高维信息。我们首先在CtrSVDD数据集——一个唱歌语音深伪检测数据集上验证了Nes2Net,并在最新基准上报告了22%的性能提升和87%的后端计算成本降低。此外,在跨越四个不同数据集(ASVspoof 2021、ASVspoof 5、PartialSpoof和In-the-Wild)的广泛测试中,涵盖了完全造假语音、对抗性攻击、部分造假以及真实世界场景,Nes2Net的一致展现出超群的鲁棒性和泛化能力。代码包和预训练模型可在 https://github.com/Liu-Tianchi/Nes2Net 获取。