LLM2D

摘要

arXiv:2503.06635v2 Announce Type: replace-cross 摘要：图聚类的目标是将图划分为不同的簇。最近兴起的深度图聚类方法大多基于图神经网络（GNN）。然而，现有的基于GNN的深度图聚类算法普遍存在表示崩溃的问题。我们归因于这样的问题主要有两个原因：(i) GNN模型的归纳偏置：GNN倾向于为邻近节点生成相似的表示。由于图中通常包含大量的跨簇链接，这种偏置会导致错误的消息传递，并导致有偏的聚类；(ii) 聚类引导的损失函数：大多数传统方法努力使所有样本都靠近预学习的聚类中心，这导致一个退化的解决方案，即将所有数据点分配到一个标签，从而使所有样本失去区分性。为了解决这些挑战，我们从图切分的角度研究图聚类，并提出了一种创新且非GNN为基础的Deep Cut启发的图嵌入和聚类框架，称为DCGC。该框架包括两个模块：(i) 切分启发的图编码；(ii) 通过最优传输进行自监督图聚类。对于编码模块，我们推导出一个切分启发的图嵌入目标，通过最小化其联合归一化切分来融合图结构和属性。对于聚类模块，我们利用最优传输理论获得聚类分配，这可以平衡“接近预学习聚类中心”的指导。通过上述两个定制设计，DCGC更适合图聚类任务，能有效缓解表示崩溃的问题，并取得更好的性能。我们进行了大量的实验，证明了与基准方法相比，我们的方法虽然简单但有效。