摘要
声音事件检测 (SED) 中的一项重大挑战是有效利用未标记数据,因为由于高昂的标注成本,标记数据的可用性有限。半监督算法依赖于标记数据从未标记数据中学习,其性能受限于前者的质量和大小。在本文中,我们介绍了基于原型的掩蔽音频模型 (PMAM) 算法,用于 SED 中的自监督表示学习,以更好地利用未标记数据。具体来说,语义丰富的帧级伪标签是通过基于高斯混合模型 (GMM) 的原型分布建模构建的。这些伪标签监督基于 Transformer 的掩蔽音频模型的学习,其中采用了二元交叉熵损失而不是广泛使用的 InfoNCE 损失,以提供来自不同原型的独立损失贡献,这在现实场景中很重要,在现实场景中,多个标签可能适用于无监督数据帧。最后阶段使用少量标记数据进行微调,可以生成性能非常高的 SED 模型。在使用 DESED 任务进行的同类测试中,我们的方法实现了 62.5% 的 PSDS1 分数,超过了当前最先进的模型,证明了所提技术优越性。