LLM2D
Synthio:利用合成数据增强小规模音频分类数据集
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data
作者: Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.02056v1

摘要

我们提出了 Synthio,一种利用合成数据增强小规模音频分类数据集的新方法。我们的目标是利用有限的标记数据来提高音频分类的准确性。传统的 数据增强技术通过应用人工变换(例如添加随机噪声或掩盖片段)来生成数据,但这些技术难以生成能够反映现实世界音频中真实多样性的数据。为了解决这一缺陷,我们建议用文本到音频 (T2A) 扩散模型生成的合成音频来增强数据集。然而,合成有效的增强数据具有挑战性,因为生成的 数据不仅应该在声学上与底层的小规模数据集保持一致,而且还应该具有足够的组成多样性。为了克服第一个挑战,我们使用偏好优化将 T2A 模型的生成与小规模数据集对齐。这确保了生成数据的声学特征与小规模数据集保持一致。为了解决第二个挑战,我们提出了一种新颖的标题生成技术,该技术利用大型语言模型的推理能力来 (1) 生成多样化且有意义的音频标题,以及 (2) 迭代地改进其质量。生成的标题然后用于提示对齐的 T2A 模型。我们在十个数据集和四个模拟的有限数据设置中对 Synthio 进行了广泛的评估。结果表明,我们的方法始终优于所有基线,使用仅在弱标题 AudioSet 上训练的 T2A 模型,性能提高了 0.1%-39%。