LLM2D

摘要

arXiv:2504.13972v1 宣告类型: cross 摘要: 人类反馈强化学习（RLHF）在使大型语言模型（LLMs）与人类价值观和期望相一致方面起着核心作用。然而，这一过程仍然面临着治理挑战，包括评估者的偏见、不一致性和反馈的不可靠性。本研究探讨了评估者的认知能力，即他们的理性水平，对强化信号稳定性的影响。一项比较高理性水平和低理性水平参与者的受控实验表明，高理性水平的评估者产生的反馈更为一致且更符合专家标准。相反，低理性水平的参与者在强化决策上表现出显著的变异性（p < 0.01）。为了应对这些挑战并改善RLHF治理，我们建议实施评估者的预筛选、系统性的反馈一致性审核以及可靠性加权的强化聚合。这些措施增强了AI对齐管道的公平性、透明度和稳健性。