LLM2D
鸟类集:一个用于鸟类生物声学音频分类的大规模数据集
BirdSet: A Large-Scale Dataset for Audio Classification in Avian Bioacoustics
作者: Lukas Rauch, Raphael Schwinger, Moritz Wirth, Ren\'e Heinrich, Denis Huseljic, Marek Herde, Jonas Lange, Stefan Kahl, Bernhard Sick, Sven Tomforde, Christoph Scholz
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2403.10380v4

摘要

深度学习(DL)极大地推动了音频分类的发展,但该领域受限于缺乏推动其他领域进步的大规模基准数据集。虽然 AudioSet 旨在作为通用领域数据集弥合这一差距,但其有限的可访问性和缺乏多样化的现实世界评估用例挑战了其作为主要资源的作用。因此,我们引入了 $\texttt{BirdSet}$,这是一个针对鸟类生物声学的大规模音频分类基准数据集。$\texttt{BirdSet}$ 超越 AudioSet,拥有来自近 10,000 个类别 ($\uparrow\!18\times$) 的超过 6,800 小时的录音 ($\uparrow\!17\%$) 用于训练,以及超过 400 小时 ($\uparrow\!7\times$) 用于八个强标签评估数据集。它是一个用途广泛的资源,可用于多标签分类、协变量偏移或自监督学习等用例。我们在三种不同的训练场景中对六种知名的 DL 模型进行了多标签分类基准测试,并概述了音频分类中的进一步评估用例。我们将数据集托管在 Hugging Face 上,以方便访问,并提供一个广泛的代码库来复制我们的结果。