LLM2D

摘要

arXiv:2503.19201v1 类别: cross 摘要：基于人类反馈的强化学习（RLHF）已成为将人工智能系统与人类价值观对齐的关键技术，在大规模语言模型的精调方面取得了显著成功。然而，现有的RLHF框架常常假设人类偏好是相对同质的，并且可以通过单一、统一的奖励模型捕捉。这一假设忽略了个体间的内在多样性和异质性，限制了RLHF在个性化场景中的适应性，并可能引发对齐偏差，从而降低用户对AI系统的满意度和信任度。为应对这些挑战，本文引入了低秩适应（LoRA）方法到个性化的RLHF框架中。我们将在所有个性化奖励函数的聚合参数空间中应用LoRA，从而能够在潜在有限的本地数据集上高效地学习个性化奖励模型。我们的方法利用本地真实奖励模型之间的潜在共享结构，同时允许个体适应，而无需像先前工作那样依赖严格的共享表示假设。我们还为该方法提供了样本复杂性保证。理论分析表明，该方法在异质人类偏好中既能够捕捉共享结构，又能捕捉个体特异性结构，从而解决了个性化需求和实际数据限制的双重挑战。在现实世界数据集上的实验结果表明，我们的算法在个性化RLHF环境中具有高效性。