LLM2D
音频生成中的提示策略改进声音分类
Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification
作者: Francesca Ronchini, Ho-Hsiang Wu, Wei-Cheng Lin, Fabio Antonacci
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2504.03329v1

摘要

arXiv:2504.03329v1 交叉公告类型 摘要:本文研究了使用文本转音频(TTA)模型生成现实数据集的有效提示策略设计。我们还分析了不同技术以提高这些数据集在声音分类任务中的实用性。通过使用两种TTA模型评估两个声音分类数据集,我们应用了一系列提示策略。我们的研究结果表明,针对特定任务的提示策略在数据生成方面显著优于基本提示方法。此外,使用不同TTA模型生成的数据集合并被证明比仅仅增加训练数据集大小更有效地提高分类性能。总体而言,我们的结果强调了这些方法作为使用合成数据的有效数据增强技术的优势。