摘要
arXiv:2502.13555v1 Announce Type: cross
摘要:由于图数据中存在稀缺性和噪声,数据增强对于图表示学习是必要的。现有的大多数增强方法在增强过程中忽略了从数据集中继承的上下文信息,这些方法仅依赖于图结构进行增强。尽管一些基于大型语言模型(LLM)的图学习方法取得了成功,但它们大多为白盒结构,需要访问开放访问LLM的权重或潜在特征,这使得它们难以普及给所有人,因为现有的LLM大多由于商业考虑而保持闭源状态。为克服这些限制,我们提出了一种基于LLM的黑盒上下文驱动的图数据增强方法——DemoGraph。利用文本提示作为上下文相关信息,我们让LLM生成知识图谱(KGs),从而使我们能够从文本输出中捕捉结构交互。然后,我们设计了一个动态合并方案,将LLM生成的KGs在训练过程中随机整合到原始图中。为了控制增强图的稀疏性,我们进一步设计了一个粒度感知的提示策略和一个指令微调模块,可以根据数据集的不同粒度级别无缝生成文本提示。在各种图学习任务上的广泛实验验证了我们方法的有效性,优于现有的图数据增强方法。值得注意的是,在涉及电子健康记录(EHRs)的场景中,我们方法的表现尤为出色,这验证了其最大限度地利用上下文知识的能力,提高了预测性能和可解释性。