摘要
arXiv:2502.06664v1 公告类型: cross
摘要:有效地操控可听设备需要理解用户周围的声学环境。在声场景的计算分析中,基础模型已经成为了最先进的方法,用于生成高性能、鲁棒性强、用途广泛的音频表示。我们引入并发布了 Deep Evaluation of Audio Representations (DEAR),这是第一个用于评估基础模型在捕捉可听设备所需基本声学属性方面有效性的数据集和基准。该数据集包括1,158个音频片段,每个片段为30秒长,通过空间混合专有的独白与日常声场景的商用高质量录音创建。我们的基准涵盖了八个任务,评估声场景的一般语境、语音来源以及技术声学属性。通过对四种通用音频表示模型的评估,我们展示出BEATs模型在各方面表现显著优于其他模型。这一优势突显了在多样化音频集合上进行训练的模型的优势,证实了它们在广泛的听觉任务中的适用性,包括编码对于可听设备定向所需环境属性。DEAR数据集及其相关代码可在https://dear-dataset.github.io获取。