LLM2D

摘要

arXiv:2505.00359v1 消息类型: cross 摘要：在数据流聚类中，流聚类算法的系统理论仍然相对匮乏。最近，基于密度的方法引起了关注。然而，现有的算法在同时处理任意形状、多密度、高维数据时，保持强大的异常值抵抗力方面存在困难。当数据密度复杂变化时，聚类质量会显著下降。本文提出了一种基于新型紧邻概念的聚类算法，并引入了基于骨架集的数据流聚类理论。基于这些理论，本文开发了一种新的方法——TNStream，一种完全在线算法。该算法基于局部相似性自适应地确定聚类半径，并通过微聚类总结多密度数据流的演变。然后应用基于紧邻的聚类算法，形成最终聚类。为了在高维情况提高效率，本文采用了局部敏感哈希（LSH）来结构化微聚类，解决了存储k最近邻的挑战。TNStream使用不同的聚类标准在合成和真实世界数据集上进行了评估。实验结果表明，它在提高多密度数据的聚类质量方面非常有效，并验证了提出的数据流聚类理论。