摘要
arXiv:2503.24150v1 交叉公告类型
摘要:生成式AI的最新进展主要得益于诸如基于人类反馈的强化学习(RLHF)之类的对齐技术。RLHF及其相关技术通常涉及构建一个人类偏好的二元或排序选择数据集,并随后对模型进行微调以与这些偏好对齐。本文将重点转移到理解此类数据集中编码的偏好,并识别常见的人类偏好。我们发现,从近5000种独特偏好中选择的21个偏好类别就捕捉到了超过89%的个体偏好变异。这套少量的偏好类似于人类偏好的一种标准基底,类似于心理学或面部识别研究中已确立的人类变异特征描述。通过合成和实证评估,我们确认我们的低秩、标准基底的人类偏好在整个数据集和特定主题内都能泛化。我们还进一步证明了我们在模型评估方面的偏好基底的实用性,其中我们的偏好类别为模型对齐提供了更深入的洞察,并在模型训练中展示了根据偏好定义的子集进行微调能够成功使模型对齐。