摘要
arXiv:2309.08751v3 宣告类型: replace-cross
摘要: 随着现代人工智能架构的发展,已经发生了一种向端到端架构的转变。这种转变导致神经架构在没有特定领域偏见/知识的情况下进行训练,而是根据任务进行优化。在本文中,我们通过多样化的特征表示学习音频嵌入,在这种情况下,这些表示是特定领域的。对于跨越数百类声音分类的情况,我们学习了对多种音频属性(如音高、音色和神经表示)鲁棒且独立的嵌入,同时还通过端到端架构学习了这些嵌入。我们观察到,虽然手工程嵌入(例如基于音高和音色的嵌入)本身不足以超过纯端到端表示的效果,但将这些嵌入与端到端嵌入结合起来,显著提高了性能。这项工作将为端到端模型带来一些领域专业知识,以学习鲁棒且多样化的表示,超越仅训练端到端模型的性能。