LLM2D

摘要

我们提出了一种新颖的通用音频生成框架，专门为异常检测和定位而设计。与现有的主要关注工业和机器相关声音的数据集不同，我们的框架侧重于更广泛的环境，尤其适用于仅有音频数据可用的现实世界场景，例如视频衍生或电话音频。为了生成此类数据，我们提出了一种受 LLM-Modulo 框架启发的新方法，该方法利用大型语言模型 (LLM) 作为世界模型来模拟此类现实世界场景。此工具模块化，允许即插即用。它的工作原理是首先使用 LLM 预测合理的现实世界场景。LLM 进一步提取组成声音、顺序以及这些声音应该合并的方式，以创建连贯的整体。与 LLM-Modulo 框架类似，我们在每个输出阶段都包含严格的验证，确保生成数据的可靠性。使用该框架生成的数据用作异常检测应用的基准，有可能提高在音频数据上训练的模型的性能，特别是在处理非分布情况时。因此，我们的贡献填补了音频异常检测资源中的关键空白，并提供了一个可扩展的工具，用于生成多样化、逼真的音频数据。