摘要
arXiv:2502.12925v1 公告类型: cross
摘要:近年来,音频基础模型的研究取得了显著进展,这体现在复杂下游任务上的不断改进结果中。因此,这些预训练网络迅速被用于各种音频应用中。然而,这些改进却导致了模型大小和复杂度的显著增加。这一问题伴随着环境问题,这使得这些网络无法部署在消费级设备上,也限制了它们在实时应用中的使用。此外,这似乎与这些模型所应用于的具体任务的特异性相矛盾,这些任务通常比从任何类型音频数据中提取丰富且多用途的表示要简单得多。在这篇论文中,我们通过一种简单而有效的方法解决了这个问题,从大型基础模型中提取轻量级的专家子网络。具体而言,我们在预训练表示模型的层之间引入了可学习的二进制掩码。在针对下游任务训练端到端模型时,我们增加了一个稀疏性诱导损失到整体目标中,从而学习一个专门用于单一任务的紧凑型子网络。重要的是,基础模型的权重被保持冻结,结果导致较低的额外训练成本。一旦训练完成,掩码的计算单元可以从网络中移除,这将带来显著的性能提升。我们使用三种广泛使用的音频基础模型对我们的方法进行了评估,每种模型基于不同的骨干架构,并在其常见的音频表示评估任务上展示了其有效性,同时也在语音、音乐和一般音频领域展示了其灵活性。可通过以下链接复制结果的代码和支持页面:https://github.com/gnvIRCAM/Audio-representation-trimming