LLM2D
数据聚类:数据科学中的基本技术
Data clustering: an essential technique in data science
作者: Tai Dinh, Wong Hauchi, Daniil Lisik, Michal Koren, Dat Tran, Philip S. Yu, Joaqu\'in Torres-Sospedra
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2412.18760v2

摘要

arXiv:2412.18760v2 公告类型: 替换 摘要:本文探讨了数据聚类在数据科学中的关键作用,强调了聚类的方法、工具及其多样化的应用。传统技术,如部分聚类和层次聚类,与数据流聚类、基于密度的聚类、基于图的聚类和基于模型的聚类等先进方法一起进行了分析,以处理复杂的结构化数据集。本文强调了聚类的基本原理,概述了广泛使用的工具和技术框架,介绍了数据科学中的聚类工作流程,讨论了实际应用中的挑战,并探讨了聚类的各种应用。通过关注这些基础和应用,讨论强调了聚类的变革潜力。本文以聚类在未来研究方向的见解结尾,强调了聚类在推动创新和促进数据驱动决策方面的作用。