LLM2D
FedRLHF:一个具有收敛保证的联邦框架,用于隐私保护和个性化RLHF
FedRLHF: A Convergence-Guaranteed Federated Framework for Privacy-Preserving and Personalized RLHF
作者: Flint Xiaofeng Fan, Cheston Tan, Yew-Soon Ong, Roger Wattenhofer, Wei-Tsang Ooi
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2412.15538v2

摘要

arXiv:2412.15538v2 公告类型: replace-cross 摘要:随着人们对隐私问题的关注不断增加以及个性化体验的需求日益增长,传统的带有人类反馈强化学习(RLHF)框架面临重大挑战,因为它们依赖于集中式数据。我们引入了联邦带有人类反馈的强化学习(FedRLHF),这是一种新颖的框架,通过去中心化的方式重新定义了RLHF过程。FedRLHF能够在不共享原始数据或人类反馈的情况下,让多个客户端协同学习策略,从而确保了强大的隐私保护。利用联邦强化学习,每个客户端在当地将其奖励函数与人类反馈相结合,并通过个性化的RLHF过程更新其策略。我们为FedRLHF建立了严格的理论基础,提供了收敛性保证,并推导出了随客户端数量增加而高效缩放的样本复杂性上限。在MovieLens和IMDb数据集上的实证评估显示,FedRLHF不仅保留了用户隐私,还实现了与集中式RLHF相当的性能,并且在多样化的客户端环境中增强了个性化。