LLM2D

摘要

arXiv:2503.06635v3 宣布类型: 替换交叉摘要: 图聚类旨在将图划分为不同的聚类。最近出现的深度图聚类方法大多基于图神经网络(GNN)。然而，现有的基于GNN的深度图聚类算法普遍存在表示崩溃的问题。我们认为这种问题的主要原因有两个方面：(i) GNN模型的归纳偏见：GNN倾向于为相邻节点生成相似的表示。由于图中往往包含相当可观数量的跨聚类链接，这种偏见会导致错误的信息传递并导致有偏的聚类；(ii) 聚类指导损失函数：大多数传统方法试图使所有样本都更接近预学习的聚类中心，这导致了一个退化的解决方案，即将所有数据点分配到一个标签，从而使所有样本相似且缺乏区分性。为了解决这些挑战，我们从图切的视角出发研究图聚类，并提出了一种创新且非基于GNN的Deep Cut-informed Graph嵌入和聚类框架，即DCGC。该框架包括两个模块：(i) 切割指导的图编码；(ii) 基于最优传输的自我监督图聚类。对于编码模块，我们推导出一个切割指导的图嵌入目标，通过最小化它们联合的归一化切割来融合图结构和属性。对于聚类模块，我们利用最优传输理论来获得聚类分配，这可以平衡“接近预学习聚类中心”的指导。凭借上述两个定制化的设计，DCGC更适合图聚类任务，可以有效缓解表示崩溃的问题并获得更好的性能。我们在广泛的实验中证明，与基准方法相比，我们的方法简单且有效。