LLM2D
异常分数能说明全部情况吗?一个多层级异常检测基准
Are Anomaly Scores Telling the Whole Story? A Benchmark for Multilevel Anomaly Detection
作者: Tri Cao, Minh-Huy Trinh, Ailin Deng, Quoc-Nam Nguyen, Khoa Duong, Ngai-Man Cheung, Bryan Hooi
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.14515v1

摘要

异常检测 (AD) 是一项机器学习任务,它通过从正常的训练数据中学习模式来识别异常。在许多现实场景中,异常的严重程度各不相同,从风险较小的轻微异常到需要立即关注的严重异常。然而,现有的模型主要在二元环境中运行,并且它们产生的异常分数通常基于数据点与正常数据的偏差,这可能无法准确反映实际的严重程度。在本文中,我们通过做出三个关键贡献来解决这一差距。首先,我们提出了一种新颖的设置,即多级异常检测 (MAD),其中异常分数代表现实世界应用中异常的严重程度,并且我们强调了其在各个领域的多种应用。其次,我们引入了一个新的基准,MAD-Bench,它不仅评估模型检测异常的能力,还评估其异常分数反映严重程度的有效性。该基准包含多种类型的基线和涉及严重程度的现实世界应用。最后,我们对 MAD-Bench 进行了全面的性能分析。我们评估模型分配与严重程度一致的分数的能力,研究其在二元检测和多级检测中的性能之间的对应关系,并研究其鲁棒性。这项分析为改进 AD 模型以实现实际的严重程度对齐提供了关键见解。用于该基准的代码框架和数据集将公开可用。