LLM2D

摘要

本文探讨了一个重要的图异常检测 (GAD) 任务，即开放集 GAD，其目标是使用少量正常节点和异常节点（称为已知异常）训练检测模型，以检测已知异常和未知异常（即无法通过训练异常进行说明的异常）。这些标记的训练数据为 GAD 模型提供了关于异常的关键先验知识，从而能够大幅减少检测错误。然而，当前的监督 GAD 方法倾向于过度强调拟合已知异常，导致将许多未知异常错误地检测为正常节点。此外，现有的开放集 AD 模型被引入来处理欧几里得数据，无法有效地从图结构和节点属性中捕获用于 GAD 的判别特征。在这项工作中，我们提出了一种新颖的开放集 GAD 方法，即正常结构正则化 (NSReg)，以实现对未知异常的泛化检测能力，同时保持其对已知异常检测的有效性。NSReg 的关键思想是引入一个正则化项，该项强制学习基于正常节点与其其他节点的结构关系的紧凑、语义丰富的表示。当与监督异常检测损失一起优化时，正则化项有助于将强规范性融入建模，因此，它有效地避免了过度拟合已知异常并学习了更好的规范性决策边界，从而大幅减少了将未知异常错误地检测为正常的假阴性。在七个真实世界数据集上的大量实证结果表明，NSReg 在未知异常类别上至少比最先进的竞争方法高出 14% AUC-ROC，在所有异常类别上高出 10% AUC-ROC。