摘要
arXiv:2504.14439v1 Announce Type: cross
摘要:个性化大型语言模型(LLMs)以适应多样化的用户偏好对于提升对齐度和用户满意度至关重要。传统的人类反馈强化学习(RLHF)方法往往依赖于单一的价值表示,这限制了它们适应个体偏好能力。我们提出了一种新颖的框架,利用低秩偏好建模来高效学习和泛化用户特定的奖励函数。通过在低维子空间中表示奖励函数,并将个人偏好建模为共享基函数的加权组合,我们的方法避免了僵硬的用户分类,同时实现了可扩展性和少样本适应。我们在多个偏好数据集上验证了该方法,证明了其在面对未见过的用户时的优越泛化能力和在偏好预测任务中的改进准确性。