LLM2D

摘要

多变量时间序列异常检测方法的基准测试由于缺乏高质量数据集而极具挑战性。目前公开可用的数据集规模太小，多样性不足，并且异常特征过于简单，这阻碍了该研究领域的实质性进展。我们提出了一种解决方案：一个利用最先进的仿真工具生成的多样化、大规模且非平凡的数据集，该数据集反映了汽车动力总成的真实行为，包括其多变量、动态和可变状态特性。为了适应无监督和半监督异常检测设置，以及时间序列生成和预测，我们提供了数据集的不同版本，其中训练集和测试集根据任务的不同提供污染版本和干净版本。我们还提供了一些基于确定性和变分自动编码器的方法以及一种非参数方法的基线结果。正如预期的那样，基线实验表明，在半监督版本的数据集上训练的方法优于其无监督对应方法，这突出了对更能抵抗污染训练数据的方法的需求。