LLM2D

摘要

声音事件检测 (SED) 中的一项重大挑战是有效利用未标记数据，因为由于高昂的标注成本，标记数据的可用性有限。半监督算法依赖于标记数据从未标记数据中学习，其性能受限于前者的质量和大小。在本文中，我们介绍了基于原型的掩蔽音频模型 (PMAM) 算法，用于 SED 中的自监督表示学习，以更好地利用未标记数据。具体来说，语义丰富的帧级伪标签是通过基于高斯混合模型 (GMM) 的原型分布建模构建的。这些伪标签监督基于 Transformer 的掩蔽音频模型的学习，其中采用了二元交叉熵损失而不是广泛使用的 InfoNCE 损失，以提供来自不同原型的独立损失贡献，这在现实场景中很重要，在现实场景中，多个标签可能适用于无监督数据帧。最后阶段使用少量标记数据进行微调，可以生成性能非常高的 SED 模型。在使用 DESED 任务进行的同类测试中，我们的方法实现了 62.5% 的 PSDS1 分数，超过了当前最先进的模型，证明了所提技术优越性。