摘要
arXiv:2312.11952v2 宣告类型: replace-cross
摘要: 高维数据集通常包含在不同的子空间中的多个有意义的聚类。例如,对象可以按照颜色、重量或大小进行聚类,揭示给定数据集的不同解释。有多种方法能够识别这种非冗余聚类。然而,大多数这些方法都需要用户指定每个子空间中期望的子空间数和聚类数。声明这些值是一个非平凡问题,并且通常需要对输入数据集有详细的了解。在这篇论文中,我们提出了一种框架,利用最小描述长度原则(MDL)自动检测每个子空间的子空间数和聚类数。我们描述了一种高效的过程,通过在子空间内分割和合并子空间及聚类来贪婪地搜索参数空间。此外,我们引入了一种编码策略,允许我们在每个子空间中检测离群值。广泛的实验表明,我们的方法在与最先进的方法的竞争中具有很高的竞争力。