LLM2D

摘要

arXiv:2502.13440v1 Announce Type: cross 摘要：鸟类种群的变化可以指示生态系统更广泛的改变，使鸟类成为最重要的动物群体之一，需要进行监测。结合机器学习和被动声学技术能够在无需直接人力投入的情况下实现长时间的连续监测。然而，大多数现有技术需要大量的专家标注数据集用于训练，并且在繁忙的声音场景中难以检测重叠的时间段叫声。我们提出了一种半监督声学鸟类检测器，该检测器既可以检测频率分离后的重叠叫声，又可以使用少量标注的训练样本。分类器在来自110种鸟类的315类社区记录的开源数据和新加坡长时间声音场景录音的组合上进行了训练和评估。在保留的测试集上，该分类器在每类平均有11个标注训练样本的情况下，实现了0.701的平均F0.5分数。尽管标记训练样本数量显著较少，该检测器在103种鸟类的测试集上仍优于最先进的BirdNET分类器。此外，该检测器还在144小时的连续声音场景数据上进行了测试。新加坡丰富多样的声音场景使得在原始的连续数据流中抑制误报变得具有挑战性。尽管如此，我们证明在如此多样的环境中实现高精度是可能的，并且只需极少的标注训练数据。