LLM2D

摘要

本文提出了一种使用合成模式而不是真实音频数据来预训练音频编码器的方案。我们提出的框架包含两个关键要素。第一个是掩码自动编码器（MAE），这是一种自监督学习框架，它从重建随机掩码对应的数据中学习。MAE 倾向于关注低级信息，例如数据中的视觉模式和规律性。因此，输入中描绘的内容无关紧要，无论是图像、音频梅尔谱图，还是合成模式。这导致了第二个关键要素，即合成数据。与真实音频不同，合成数据不受隐私和许可侵权问题的困扰。通过将 MAE 和合成模式相结合，我们的框架使模型能够在没有真实数据的情况下学习泛化特征表示，同时解决与真实音频相关的问题。为了评估我们框架的有效性，我们在总共 13 个音频任务和 17 个合成数据集上进行了大量实验。这些实验提供了关于哪些类型的合成模式对音频有效的见解。我们的结果表明，我们的框架实现了与在 AudioSet-2M 上预训练的模型相当的性能，并在某些方面优于基于图像的预训练方法。