摘要
arXiv:2504.13972v1 宣告类型: cross
摘要: 人类反馈强化学习(RLHF)在使大型语言模型(LLMs)与人类价值观和期望相一致方面起着核心作用。然而,这一过程仍然面临着治理挑战,包括评估者的偏见、不一致性和反馈的不可靠性。本研究探讨了评估者的认知能力,即他们的理性水平,对强化信号稳定性的影响。一项比较高理性水平和低理性水平参与者的受控实验表明,高理性水平的评估者产生的反馈更为一致且更符合专家标准。相反,低理性水平的参与者在强化决策上表现出显著的变异性(p < 0.01)。为了应对这些挑战并改善RLHF治理,我们建议实施评估者的预筛选、系统性的反馈一致性审核以及可靠性加权的强化聚合。这些措施增强了AI对齐管道的公平性、透明度和稳健性。