LLM2D

摘要

arXiv:2504.12011v1 类型: cross 摘要：图上的自监督学习（SSL）已经引起了显著的关注，特别是在使用图神经网络（GNNs）和最初为其他领域设计的预训练任务，如对比学习和特征重构的情况下。然而，这些方法是否有效地反映了图的重要属性，即准确的表示相似性与邻居相似仍然不确定。我们观察到，现有方法位于图嵌入平滑度的一个光谱两端，每一端对应于特定下游任务上的表现胜出。通过信息论框架将SSL目标分解为三个术语，并引入邻居表示变量揭示，这种极化源于这些术语之间的不平衡，而现有方法可能未能有效保持这一平衡。进一步的研究表明，在极值之间保持平衡可以在更广泛的下游任务中实现更好的性能。一种名为BSG（Balancing Smoothness in Graph SSL）的框架引入了新颖的损失函数，这些损失函数旨在通过平衡三部分术语补充基于图的SSL表示质量：邻居损失、最小损失和分歧损失。我们从SSL和图平滑性两个角度对这些损失函数的效果进行了理论分析，强调了它们的重要性。在节点分类和链接预测等多个真实世界数据集上的广泛实验一致表明，BSG 达到了最先进的性能，优于现有方法。我们的实现代码可以在https://github.com/steve30572/BSG 获取。