LLM2D

摘要

我们提出了 Synthio，一种利用合成数据增强小规模音频分类数据集的新方法。我们的目标是利用有限的标记数据来提高音频分类的准确性。传统的数据增强技术通过应用人工变换（例如添加随机噪声或掩盖片段）来生成数据，但这些技术难以生成能够反映现实世界音频中真实多样性的数据。为了解决这一缺陷，我们建议用文本到音频 (T2A) 扩散模型生成的合成音频来增强数据集。然而，合成有效的增强数据具有挑战性，因为生成的数据不仅应该在声学上与底层的小规模数据集保持一致，而且还应该具有足够的组成多样性。为了克服第一个挑战，我们使用偏好优化将 T2A 模型的生成与小规模数据集对齐。这确保了生成数据的声学特征与小规模数据集保持一致。为了解决第二个挑战，我们提出了一种新颖的标题生成技术，该技术利用大型语言模型的推理能力来 (1) 生成多样化且有意义的音频标题，以及 (2) 迭代地改进其质量。生成的标题然后用于提示对齐的 T2A 模型。我们在十个数据集和四个模拟的有限数据设置中对 Synthio 进行了广泛的评估。结果表明，我们的方法始终优于所有基线，使用仅在弱标题 AudioSet 上训练的 T2A 模型，性能提高了 0.1%-39%。