摘要
我们提出了一种新颖的通用音频生成框架,专门为异常检测和定位而设计。与现有的主要关注工业和机器相关声音的数据集不同,我们的框架侧重于更广泛的环境,尤其适用于仅有音频数据可用的现实世界场景,例如视频衍生或电话音频。为了生成此类数据,我们提出了一种受 LLM-Modulo 框架启发的新方法,该方法利用大型语言模型 (LLM) 作为世界模型来模拟此类现实世界场景。此工具模块化,允许即插即用。它的工作原理是首先使用 LLM 预测合理的现实世界场景。LLM 进一步提取组成声音、顺序以及这些声音应该合并的方式,以创建连贯的整体。与 LLM-Modulo 框架类似,我们在每个输出阶段都包含严格的验证,确保生成数据的可靠性。使用该框架生成的数据用作异常检测应用的基准,有可能提高在音频数据上训练的模型的性能,特别是在处理非分布情况时。因此,我们的贡献填补了音频异常检测资源中的关键空白,并提供了一个可扩展的工具,用于生成多样化、逼真的音频数据。