摘要
arXiv:2501.08617v2 通知类型: replace-cross
摘要:尽管强化学习从人类反馈(RLHF)在对齐生成型AI方面展现出了潜力,但我们提供了实验证据表明,它也可能导致严重的系统性对齐偏差。我们认为这源于评估者的反馈依赖于受AI输出影响的下游结果预测(前瞻),从而引发Goodhart定律动态。相反,我们的理论分析表明,将评估者的反馈基于下游观察(后知)来调整,可以抑制这种效果,通过解耦对齐信号与可能被破坏的预测,至关重要的是,即使观察到的结果是从AI自身的世界模型中抽样产生的,该结果依然成立。基于这一洞察,我们引入了后知模拟强化学习(RLHS),在呈现可能的模拟结果给评估者之前,收集反馈。我们展示了RLHS在在线(PPO)和离线(DPO)大型语言模型微调中的应用,在受控的咨询类型实验和用户研究中,RLHS优于RLHF,实现了更好的对齐。我们在TruthfulQA基准上进行事后评估发现,即使在单一任务微调后,RLHF的对齐偏差和RLHS的对齐也延续到了截然不同的环境中。