摘要
arXiv:2503.06635v2 Announce Type: replace-cross
摘要:图聚类的目标是将图划分为不同的簇。最近兴起的深度图聚类方法大多基于图神经网络(GNN)。然而,现有的基于GNN的深度图聚类算法普遍存在表示崩溃的问题。我们归因于这样的问题主要有两个原因:(i) GNN模型的归纳偏置:GNN倾向于为邻近节点生成相似的表示。由于图中通常包含大量的跨簇链接,这种偏置会导致错误的消息传递,并导致有偏的聚类;(ii) 聚类引导的损失函数:大多数传统方法努力使所有样本都靠近预学习的聚类中心,这导致一个退化的解决方案,即将所有数据点分配到一个标签,从而使所有样本失去区分性。为了解决这些挑战,我们从图切分的角度研究图聚类,并提出了一种创新且非GNN为基础的Deep Cut启发的图嵌入和聚类框架,称为DCGC。该框架包括两个模块:(i) 切分启发的图编码;(ii) 通过最优传输进行自监督图聚类。对于编码模块,我们推导出一个切分启发的图嵌入目标,通过最小化其联合归一化切分来融合图结构和属性。对于聚类模块,我们利用最优传输理论获得聚类分配,这可以平衡“接近预学习聚类中心”的指导。通过上述两个定制设计,DCGC更适合图聚类任务,能有效缓解表示崩溃的问题,并取得更好的性能。我们进行了大量的实验,证明了与基准方法相比,我们的方法虽然简单但有效。