LLM2D

摘要

图上的节点分类经常面临类别不平衡的挑战，这会导致性能偏差，并在实际应用中带来重大风险。尽管已经提出了一些以数据为中心的方法，但它们都没有关注文本属性图 (TAG)，因此忽略了利用文本特征中丰富的语义来提升少数节点分类的潜力。鉴于这一关键差距，我们研究了在文本空间中增强图数据的可能性，利用大型语言模型 (LLM) 的文本生成能力来处理 TAG 上不平衡的节点分类问题。具体来说，我们提出了一种名为 LA-TAG（基于大型语言模型的文本属性图增强）的新方法，该方法提示 LLM 根据图中现有的节点文本生成合成文本。此外，为了将这些合成文本属性节点集成到图中，我们引入了一个基于文本的链接预测器来连接合成节点和现有节点。我们在多个数据集和评估指标上的实验表明，我们的框架显著优于传统的非文本数据增强策略和特定的节点不平衡解决方案。这突出了使用 LLM 解决 TAG 上不平衡问题的潜力。