LLM2D

摘要

arXiv:2501.13093v3 宣告类型: replace-cross 摘要：聚类往往是一个具有挑战性的问题，因为“正确的”聚类应该是怎样的固有的模糊性很大。即使聚类的数量 \(K\) 已知，这种模糊性仍然存在，特别是在不同聚类之间的密度有变化，且聚类内存在多个相对分离的高密度区域时。在这篇论文中，我们提出了一个信息论方面的聚类模糊性的表征，并设计了一个能够在聚类无模糊时恢复聚类的算法。这种表征形式化了当一个聚类内的两个高密度区域足够分离，以至于在 \(K\) 聚类中看起来更像是两个不同的聚类（而不是两个真正不同的聚类）的情况。算法首先使用基于密度的方法识别出 \(K\) 个部分聚类（或“种子”），然后以贪婪的方式将未聚类的点添加到最初的 \(K\) 个部分聚类中，形成一个完整的聚类。我们实现并测试了一个修改版本的算法，该算法有效地处理重叠聚类，并观察到它需要很少的参数选择，在许多数据集上表现出比广泛使用的非凸聚类恢复算法更好的性能。