摘要
arXiv:2105.00335v2 通知类型: 替换-交叉
摘要:在过去的二十年中,CNN架构产生了令人信服的声音感知和认知模型,学习了特征的分层组织。类似于计算机视觉领域的成功,音频特征分类可以根据不同的任务在广泛的数据库和标签上进行优化。实际上,为图像理解设计的类似架构已被证明对声学场景分析有效。在这里,我们提出将基于Transformer的架构应用于原始音频信号,而无需使用卷积层。在包含200个类别的标准Free Sound 50K数据集上,我们的模型在卷积模型之上产生了最先进的结果。这具有重要意义,因为与自然语言处理和计算机视觉领域不同,我们没有进行无监督的预训练以超越卷积架构。在同一训练集上,就平均平均精度基准而言,我们展示了显著的改进。我们进一步通过使用过去几年设计的卷积网络启发的池化技术改进了Transformer架构的性能。此外,我们还展示了如何将启发自小波的多速率信号处理思想应用于Transformer嵌入,以提高结果。我们还展示了我们的模型如何学习一个非线性且非恒定带宽的滤波银行,这为音频理解任务提供了一种可适应的时间频率前端表示,不同于其他任务,例如音调估计。