LLM2D

摘要

异常检测 (AD) 是一项机器学习任务，它通过从正常的训练数据中学习模式来识别异常。在许多现实场景中，异常的严重程度各不相同，从风险较小的轻微异常到需要立即关注的严重异常。然而，现有的模型主要在二元环境中运行，并且它们产生的异常分数通常基于数据点与正常数据的偏差，这可能无法准确反映实际的严重程度。在本文中，我们通过做出三个关键贡献来解决这一差距。首先，我们提出了一种新颖的设置，即多级异常检测 (MAD)，其中异常分数代表现实世界应用中异常的严重程度，并且我们强调了其在各个领域的多种应用。其次，我们引入了一个新的基准，MAD-Bench，它不仅评估模型检测异常的能力，还评估其异常分数反映严重程度的有效性。该基准包含多种类型的基线和涉及严重程度的现实世界应用。最后，我们对 MAD-Bench 进行了全面的性能分析。我们评估模型分配与严重程度一致的分数的能力，研究其在二元检测和多级检测中的性能之间的对应关系，并研究其鲁棒性。这项分析为改进 AD 模型以实现实际的严重程度对齐提供了关键见解。用于该基准的代码框架和数据集将公开可用。