LLM2D

摘要

机器声音的异常检测系统开发和验证面临着录音不足和异常稀缺的重大挑战。为了解决这些局限性，我们提出了一种新方法，利用基于潜在扩散的模型，该模型集成了编码器-解码器框架，以生成机器声音中各种异常。我们的方法利用 Flan-T5 模型对从音频文件元数据派生的字幕进行编码，从而通过精心设计的 U-Net 架构实现条件生成。这种方法帮助我们的模型在 EnCodec 潜在空间中生成音频信号，确保高度的上下文相关性和质量。我们使用 Fr\'echet 音频距离 (FAD) 分数和其他指标客观地评估了我们生成的声音的质量，证明我们的方法在生成可靠的机器音频方面优于现有模型，这些音频与实际异常情况非常相似。使用我们生成的数据评估异常检测系统表明了强烈的相关性，曲线下面积 (AUC) 分数与原始分数相差 4.8%，验证了我们生成数据的有效性。这些结果证明了我们的方法在增强各种以前未见条件下异常检测系统的评估和鲁棒性方面的潜力。音频样本可在 \url{https://hpworkhub.github.io/MIMII-Gen.github.io/} 找到。