LLM2D
TNStream: 使用最紧邻微聚类来定义流式数据中的多密度聚类
TNStream: Applying Tightest Neighbors to Micro-Clusters to Define Multi-Density Clusters in Streaming Data
作者: Qifen Zeng, Haomin Bao, Yuanzhuo Hu, Zirui Zhang, Yuheng Zheng, Luosheng Wen
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00359v1

摘要

arXiv:2505.00359v1 消息类型: cross 摘要:在数据流聚类中,流聚类算法的系统理论仍然相对匮乏。最近,基于密度的方法引起了关注。然而,现有的算法在同时处理任意形状、多密度、高维数据时,保持强大的异常值抵抗力方面存在困难。当数据密度复杂变化时,聚类质量会显著下降。本文提出了一种基于新型紧邻概念的聚类算法,并引入了基于骨架集的数据流聚类理论。基于这些理论,本文开发了一种新的方法——TNStream,一种完全在线算法。该算法基于局部相似性自适应地确定聚类半径,并通过微聚类总结多密度数据流的演变。然后应用基于紧邻的聚类算法,形成最终聚类。为了在高维情况提高效率,本文采用了局部敏感哈希(LSH)来结构化微聚类,解决了存储k最近邻的挑战。TNStream使用不同的聚类标准在合成和真实世界数据集上进行了评估。实验结果表明,它在提高多密度数据的聚类质量方面非常有效,并验证了提出的数据流聚类理论。