摘要
arXiv:2504.07522v1 通知类型: 交叉
摘要:在高维表格数据中检测离群值具有挑战性,因为数据通常分布在多个低维子空间中——这一现象称为多视图效应(MV)。这种效应促使了大量的研究,专注于挖掘这些子空间,也就是子空间选择。然而,由于MV效应的确切性质尚未完全理解,传统的研究方法不得不依赖于启发式驱动的搜索方案,这些方案难以准确捕捉数据的真实结构。在无监督任务如离群值检测或聚类中,错误地表示数据结构可能会阻碍性能。我们提出了近视子空间理论(Myopic Subspace Theory, MST),这是一种新的理论框架,它从数学上阐述了多视图效应,并将子空间选择写为一个随机优化问题。基于MST,我们提出了V-GAN,这是一种生成方法,被训练以解决这样一个优化问题。这种方法避免了在特征空间中进行耗时的搜索,同时保证保留了数据的固有结构。在42个真实世界数据集上的实验表明,使用V-GAN子空间构建集成方法能够显著提高一类分类性能——相比现有的子空间选择、特征选择和嵌入方法。进一步在合成数据上的实验表明,V-GAN能够更准确地识别子空间,同时在扩展性方面优于其他相关子空间选择方法。这些结果证实了我们方法的理论保证,并且也突显了其在高维设置中的实用性。