摘要
arXiv:2504.20776v1 类型: cross
摘要: 目前可用的用于自动声学识别欧洲昆虫的工具范围有限。为了使这些算法能够跨不同背景识别每种物种产生的细微而复杂的声学特征,当前需要大型且生态上异质的声学数据集,因此获取这样的数据集是其开发的关键要求。这里我们介绍了ECOSoundSet(欧洲蟪蝼科和直翅缎数据集),该数据集包含200种直翅目和24种蝉类(包括217种和26种各自亚种)在北欧、中欧和温带西欧(安道尔、比利时、丹麦、法国本土和科西嘉岛、德国、爱尔兰、卢森堡、摩纳哥、荷兰、英国、瑞士)的10,653个记录。其中部分记录通过南法国和加泰罗尼亚地区的针对性实地工作收集,部分记录来自于各种欧洲昆虫学家的贡献。数据集由粗略标注的记录和详细标注的记录组成,对于粗略标注的记录,我们只能推断目标物种在其某个时间点的存在(弱标注),而对于详细标注的记录,则知道录音中每种昆虫声音的具体时间和频率范围(强标注)。我们也提供了强标注记录的训练/验证/测试集划分,分别约为0.8、0.1和0.1的比例,以便于将其纳入深度学习算法的训练和评估中。该数据集可以作为北欧、中欧和温带西欧已在线可用的记录的有意义补充,用于训练用于直翅目和蝉类声学分类的深度学习算法。