LLM2D
高维数据离群点检测的对抗子空间生成
Adversarial Subspace Generation for Outlier Detection in High-Dimensional Data
作者: Jose Cribeiro-Ramallo, Federico Matteucci, Paul Enciu, Alexander Jenke, Vadim Arzamasov, Thorsten Strufe, Klemens B\"ohm
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2504.07522v1

摘要

arXiv:2504.07522v1 通知类型: 交叉 摘要:在高维表格数据中检测离群值具有挑战性,因为数据通常分布在多个低维子空间中——这一现象称为多视图效应(MV)。这种效应促使了大量的研究,专注于挖掘这些子空间,也就是子空间选择。然而,由于MV效应的确切性质尚未完全理解,传统的研究方法不得不依赖于启发式驱动的搜索方案,这些方案难以准确捕捉数据的真实结构。在无监督任务如离群值检测或聚类中,错误地表示数据结构可能会阻碍性能。我们提出了近视子空间理论(Myopic Subspace Theory, MST),这是一种新的理论框架,它从数学上阐述了多视图效应,并将子空间选择写为一个随机优化问题。基于MST,我们提出了V-GAN,这是一种生成方法,被训练以解决这样一个优化问题。这种方法避免了在特征空间中进行耗时的搜索,同时保证保留了数据的固有结构。在42个真实世界数据集上的实验表明,使用V-GAN子空间构建集成方法能够显著提高一类分类性能——相比现有的子空间选择、特征选择和嵌入方法。进一步在合成数据上的实验表明,V-GAN能够更准确地识别子空间,同时在扩展性方面优于其他相关子空间选择方法。这些结果证实了我们方法的理论保证,并且也突显了其在高维设置中的实用性。