摘要
arXiv:2502.12858v1 宣布类型: cross
摘要:通过奖励模型实现偏好对齐有助于构建安全、有帮助且可靠的大型语言模型(LLMs)。然而,在偏好判断中的主观性以及偏好数据收集中代表性不足会导致新的偏见,从而妨碍奖励模型的公平性和公正性。在本工作中,我们提出了一种评估奖励模型方言偏见的框架,并通过多项实验,对比了奖励模型在配对的白人主流英语(WME)和机器翻译及人工撰写的非洲裔美国人语言(AAL)语料库上的偏好和行为,开展了一系列案例研究。结果显示,当处理AAL文本而不是WME文本时,奖励模型的人类偏好对齐性较低(平均准确率降低4%),经常偏好WME对齐的文本超过AAL对齐的文本,并且即使在输入AAL文本时,也会引导对话转向WME。我们的研究结果提供了一种对LLM发展过程中较为研究不足阶段的反AAL偏见的针对性分析,揭示了代表性的危害和关于LLM在涉及AAL时期望行为的伦理问题。