LLM2D

摘要

arXiv:2309.08751v3 宣告类型: replace-cross 摘要: 随着现代人工智能架构的发展，已经发生了一种向端到端架构的转变。这种转变导致神经架构在没有特定领域偏见/知识的情况下进行训练，而是根据任务进行优化。在本文中，我们通过多样化的特征表示学习音频嵌入，在这种情况下，这些表示是特定领域的。对于跨越数百类声音分类的情况，我们学习了对多种音频属性（如音高、音色和神经表示）鲁棒且独立的嵌入，同时还通过端到端架构学习了这些嵌入。我们观察到，虽然手工程嵌入（例如基于音高和音色的嵌入）本身不足以超过纯端到端表示的效果，但将这些嵌入与端到端嵌入结合起来，显著提高了性能。这项工作将为端到端模型带来一些领域专业知识，以学习鲁棒且多样化的表示，超越仅训练端到端模型的性能。