LLM2D

摘要

在知识发现和数据挖掘任务中，由名义属性值构成的分类数据无处不在。由于缺乏明确定义的度量空间，分类数据分布难以直观理解。聚类是一种适用于数据分析的常用技术。然而，聚类的成功往往依赖于合理的距离度量，而这恰恰是分类数据天然缺乏的。因此，分类数据的聚类分析被认为是一个至关重要但极具挑战性的问题。本文提出了一种新的发现：属性值之间的顺序关系是聚类准确性的决定性因素，也是理解分类数据聚类的关键。为了自动获得这些顺序，我们提出了一种新的学习范式，它允许联合学习聚类和顺序。结果表明，结合顺序学习的聚类方法能够获得更高的聚类精度，并且学习到的顺序为理解分类数据的聚类分布提供了直观解释。大量的实验、统计证据和案例研究验证了新的“顺序即一切”的洞见以及所提出方法的有效性。