摘要
arXiv:2504.04428v1 宣传类型: 交叉
摘要: 在本文中,我们提出了一种新颖的公式驱动监督学习(FDSL)框架,用于通过利用公式驱动方法参数合成声学信号来预先训练环境声音分析模型。具体而言,我们详细阐述了声音事件检测(SED)任务的流程并评估了其有效性。声音事件检测任务涉及估计声音事件的类型和时间,由于获取足够数量的准确标注训练数据的难度较大而特别具有挑战性。此外,众所周知,手动标注的标签经常包含噪声,并且受到注释者主观判断的显著影响。为了解决这些挑战,我们提出了一种新的预训练方法,该方法利用一个由数学公式生成的合成数据集Formula-SED,在每一步合成过程中,使用合成参数作为真实标签,从而消除标签噪声和偏差。我们通过在DCASE2023挑战任务4中使用的DESED数据集的结果证明,使用Formula-SED进行大规模预训练显著提高了模型的准确性并加速了训练。项目页面位于 https://yutoshibata07.github.io/Formula-SED/