LLM2D
以数据为中心的联邦图学习与大型语言模型
Data-centric Federated Graph Learning with Large Language Models
作者: Bo Yan, Zhongjian Zhang, Huabin Sun, Mengmei Zhang, Yang Cao, Chuan Shi
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19455v1

摘要

arXiv:2503.19455v1 交叉公告类型: 摘要:在联邦图学习(FGL)中,由于隐私问题,一个完整的图被分割成多个子图存储在每个客户端中,所有客户端通过仅传输模型参数来共同训练一个全局图模型。FGL的一个痛点是异质性问题,其中节点或结构在客户端之间表现为非IID属性(例如,不同的节点标签分布),这严重削弱了FGL的收敛性和性能。为了解决这个问题,现有的努力集中在模型层面的设计策略上,即设计模型以提取共同知识来缓解异质性。然而,这些模型层面的策略无法从根本上解决异质性问题,因为在转移到其他任务时,模型需要从头开始设计。受到大型语言模型(LLMs)已取得显著成功这一事实的启发,我们旨在利用LLMs全面理解和增强本地带有文本属性的图,以在数据层面解决数据异质性问题。在本文中,我们提出了一种通用框架LLM4FGL,理论地将LLM在FGL中的任务分解为两个子任务。具体而言,对于每个客户端,首先利用LLM生成缺失的邻居,然后推断生成节点和原始节点之间的连接。为了提高生成节点的质量,我们设计了一种新颖的联邦生成和反演机制,无需修改LLM的参数,只需依靠所有客户端的集体反馈即可。生成邻居后,所有客户端使用预训练的边缘预测器来推断缺失的边。此外,我们的框架可以无缝集成到现有的FGL方法中。在三个真实数据集上的实验表明,我们的方法相对于先进的基线方法具有优越性。