摘要
arXiv:2503.19201v1 类别: cross
摘要:基于人类反馈的强化学习(RLHF)已成为将人工智能系统与人类价值观对齐的关键技术,在大规模语言模型的精调方面取得了显著成功。然而,现有的RLHF框架常常假设人类偏好是相对同质的,并且可以通过单一、统一的奖励模型捕捉。这一假设忽略了个体间的内在多样性和异质性,限制了RLHF在个性化场景中的适应性,并可能引发对齐偏差,从而降低用户对AI系统的满意度和信任度。为应对这些挑战,本文引入了低秩适应(LoRA)方法到个性化的RLHF框架中。我们将在所有个性化奖励函数的聚合参数空间中应用LoRA,从而能够在潜在有限的本地数据集上高效地学习个性化奖励模型。我们的方法利用本地真实奖励模型之间的潜在共享结构,同时允许个体适应,而无需像先前工作那样依赖严格的共享表示假设。我们还为该方法提供了样本复杂性保证。理论分析表明,该方法在异质人类偏好中既能够捕捉共享结构,又能捕捉个体特异性结构,从而解决了个性化需求和实际数据限制的双重挑战。在现实世界数据集上的实验结果表明,我们的算法在个性化RLHF环境中具有高效性。