LLM2D
基于值顺序估计距离度量的分类数据聚类
Categorical Data Clustering via Value Order Estimated Distance Metric Learning
作者: Yiqun Zhang, Mingjie Zhao, Hong Jia, Yang Lu, Mengke Li, Yiu-ming Cheung
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2411.15189v2

摘要

arXiv:2411.15189v2 通告类型: replace-cross 摘要:构成定性属性的数据在机器学习任务中无处不在。由于缺乏明确的度量空间,定性数据分布难以直观理解。聚类是一种适用于数据分布理解的流行数据分析技术。然而,聚类的成功往往依赖合理的距离度量,而这恰好是定性数据天生缺乏的。因此,本文提出了一个新的发现,即属性值之间的顺序关系是影响聚类准确性的决定性因素,也是理解定性数据聚类的关键,因为聚类的本质是根据样本的接纳程度对聚类进行排序。为了获得这些顺序,我们提出了一种新的学习范式,允许同时学习聚类和顺序。该方法根据基于顺序构建的距离度量交替地对数据进行分区,并根据聚类估计最可能的顺序。该算法在收敛性保证的情况下实现了卓越的聚类准确度,学习到的顺序有助于理解直观上不直观的定性数据聚类分布。大量的消融研究、统计证据和案例研究表明了对值顺序重要性的新见解和方法提议的有效性。源代码暂时开放在 https://anonymous.4open.science/r/OCL-demo。