LLM2D
只需排序:用于类别数据聚类的必要条件
Order Is All You Need for Categorical Data Clustering
作者: Yiqun Zhang, Mingjie Zhao, Hong Jia, Yiu-ming Cheung
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15189v1

摘要

在知识发现和数据挖掘任务中,由名义属性值构成的分类数据无处不在。由于缺乏明确定义的度量空间,分类数据分布难以直观理解。聚类是一种适用于数据分析的常用技术。然而,聚类的成功往往依赖于合理的距离度量,而这恰恰是分类数据天然缺乏的。因此,分类数据的聚类分析被认为是一个至关重要但极具挑战性的问题。本文提出了一种新的发现:属性值之间的顺序关系是聚类准确性的决定性因素,也是理解分类数据聚类的关键。为了自动获得这些顺序,我们提出了一种新的学习范式,它允许联合学习聚类和顺序。结果表明,结合顺序学习的聚类方法能够获得更高的聚类精度,并且学习到的顺序为理解分类数据的聚类分布提供了直观解释。大量的实验、统计证据和案例研究验证了新的“顺序即一切”的洞见以及所提出方法的有效性。