LLM2D

摘要

自动声音分类在机器听觉领域有着广泛的应用，能够实现上下文感知的声音处理和理解。本文探讨了自动分类具有高类内变异性的异构声音的方法。我们的研究使用广义声音分类法评估分类任务，这是一个包含 28 个类别的双层分类法，旨在涵盖具有语义区分的各种异构声音，以满足实际用户应用的需求。我们通过手动标注构建数据集，以确保准确性，每个类别中都有多样化的表示，并且与现实场景相关。我们比较了各种传统和现代机器学习方法，以建立异构声音分类任务的基线。我们研究了输入特征的作用，特别是检查了声学衍生的声音表示与使用预训练深度神经网络提取的嵌入的比较，这些嵌入捕获了声音的声学和语义信息。实验结果表明，编码声学和语义信息的音频嵌入在分类任务中获得了更高的准确率。在仔细分析分类错误后，我们确定了一些潜在的失败原因，并提出了减轻这些错误的措施。本文强调了需要更深入地探索分类的各个阶段，理解数据并采用能够有效处理数据复杂性和在现实世界声音环境中泛化的 методология。