LLM2D
序是间距数据聚类所需的一切
Order is All You Need for Categorical Data Clustering
作者: Yiqun Zhang, Mingjie Zhao, Hong Jia, Yang Lu, Mengke Li, Yiu-ming Cheung
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2411.15189v3

摘要

arXiv:2411.15189v3 通告类型: replace-cross 摘要:由定性属性组成的数据在机器学习任务中非常普遍。由于缺乏明确定义的度量空间,类别数据分布难以直观理解。聚类是一种流行的数据分析技术,适用于数据分布理解。然而,聚类的成功往往依赖于合理的距离度量,而这恰恰是类别数据自然缺乏的。因此,本文提出了一项新的发现,即属性值之间的顺序关系是影响聚类准确性的关键因素,也是理解类别数据聚类的关键,因为聚类的本质是根据样本的接纳情况对聚类进行排序。为了获得这些顺序,我们提出了一种新的学习范式,允许聚类和顺序的联合学习。该方法基于顺序构建的距离度量交替地将数据划分成聚类,并根据聚类估计最有可能的顺序。该算法在收敛性保证下实现了优越的聚类准确性,并学习到的顺序有助于理解类别数据非直观的聚类分布。广泛的经验实验、消融研究、统计证据和案例研究验证了对价值顺序重要性的新见解和方法的提出。源代码暂时在 https://anonymous.4open.science/r/OCL-demo 开放。