LLM2D

摘要

arXiv:2412.11983v2 通告类型: replace-cross 摘要：图神经网络（GNNs）因其在结合图结构和属性方面强大的能力，已成为图数据节点分类的首选模型。然而，这些模型在训练过程中需要大量的高质量标注数据，获取这些数据往往成本高昂。随着大型语言模型（LLMs）的兴起，利用它们的出色零样本能力和广泛的知识进行节点标注成为一种有前途的方法。尽管取得了令人鼓舞的结果，但这种做法要么需要向LLMs提出大量查询，要么因LLMs生成的嘈杂标签而导致性能下降。为了解决这些挑战，我们提出了Locle，这是一种基于LLMs高效成本的无标签节点分类主动自我训练框架。Locle迭代地识别一小组“关键”样本，并使用LLMs和GNNs为它们提取具有信息性的伪标签，作为额外的监督信号以增强模型训练。具体而言，Locle包括三个关键组件：（i）有效的初始注释主动节点选择策略；（ii）一个谨慎的样本选择方案，基于标签不和谐性和熵来识别“关键”节点；以及（iii）一个标签精炼模块，该模块结合了LLMs、GNNs和重定向的拓扑结构。在五个基准文本属性图数据集上进行的广泛实验表明，在相同的LLMs查询预算下，Locle在无标签节点分类方面显著优于最新方法。值得注意的是，在具有14,300个节点的DBLP数据集上，Locle在不到一分钱的成本下，相对于最新方法提高了8.08%的准确性。我们的代码可在https://github.com/HKBU-LAGAS/Locle获取。