LLM2D
你听到了吗?介绍 AADG:一个用于生成音频异常检测基准数据的框架
Did You Hear That? Introducing AADG: A Framework for Generating Benchmark Data in Audio Anomaly Detection
作者: Ksheeraja Raghavan, Samiran Gode, Ankit Shah, Surabhi Raghavan, Wolfram Burgard, Bhiksha Raj, Rita Singh
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.03904v1

摘要

我们提出了一种新颖的通用音频生成框架,专门为异常检测和定位而设计。与现有的主要关注工业和机器相关声音的数据集不同,我们的框架侧重于更广泛的环境,尤其适用于仅有音频数据可用的现实世界场景,例如视频衍生或电话音频。为了生成此类数据,我们提出了一种受 LLM-Modulo 框架启发的新方法,该方法利用大型语言模型 (LLM) 作为世界模型来模拟此类现实世界场景。此工具模块化,允许即插即用。它的工作原理是首先使用 LLM 预测合理的现实世界场景。LLM 进一步提取组成声音、顺序以及这些声音应该合并的方式,以创建连贯的整体。与 LLM-Modulo 框架类似,我们在每个输出阶段都包含严格的验证,确保生成数据的可靠性。使用该框架生成的数据用作异常检测应用的基准,有可能提高在音频数据上训练的模型的性能,特别是在处理非分布情况时。因此,我们的贡献填补了音频异常检测资源中的关键空白,并提供了一个可扩展的工具,用于生成多样化、逼真的音频数据。