LLM2D

摘要

arXiv:2504.07522v1 通知类型: 交叉摘要：在高维表格数据中检测离群值具有挑战性，因为数据通常分布在多个低维子空间中——这一现象称为多视图效应（MV）。这种效应促使了大量的研究，专注于挖掘这些子空间，也就是子空间选择。然而，由于MV效应的确切性质尚未完全理解，传统的研究方法不得不依赖于启发式驱动的搜索方案，这些方案难以准确捕捉数据的真实结构。在无监督任务如离群值检测或聚类中，错误地表示数据结构可能会阻碍性能。我们提出了近视子空间理论（Myopic Subspace Theory, MST），这是一种新的理论框架，它从数学上阐述了多视图效应，并将子空间选择写为一个随机优化问题。基于MST，我们提出了V-GAN，这是一种生成方法，被训练以解决这样一个优化问题。这种方法避免了在特征空间中进行耗时的搜索，同时保证保留了数据的固有结构。在42个真实世界数据集上的实验表明，使用V-GAN子空间构建集成方法能够显著提高一类分类性能——相比现有的子空间选择、特征选择和嵌入方法。进一步在合成数据上的实验表明，V-GAN能够更准确地识别子空间，同时在扩展性方面优于其他相关子空间选择方法。这些结果证实了我们方法的理论保证，并且也突显了其在高维设置中的实用性。