摘要
arXiv:2501.13093v3 宣告类型: replace-cross
摘要:聚类往往是一个具有挑战性的问题,因为“正确的”聚类应该是怎样的固有的模糊性很大。即使聚类的数量 \(K\) 已知,这种模糊性仍然存在,特别是在不同聚类之间的密度有变化,且聚类内存在多个相对分离的高密度区域时。在这篇论文中,我们提出了一个信息论方面的聚类模糊性的表征,并设计了一个能够在聚类无模糊时恢复聚类的算法。这种表征形式化了当一个聚类内的两个高密度区域足够分离,以至于在 \(K\) 聚类中看起来更像是两个不同的聚类(而不是两个真正不同的聚类)的情况。算法首先使用基于密度的方法识别出 \(K\) 个部分聚类(或“种子”),然后以贪婪的方式将未聚类的点添加到最初的 \(K\) 个部分聚类中,形成一个完整的聚类。我们实现并测试了一个修改版本的算法,该算法有效地处理重叠聚类,并观察到它需要很少的参数选择,在许多数据集上表现出比广泛使用的非凸聚类恢复算法更好的性能。