LLM2D

摘要

arXiv:2501.08617v2 通知类型: replace-cross 摘要：尽管强化学习从人类反馈（RLHF）在对齐生成型AI方面展现出了潜力，但我们提供了实验证据表明，它也可能导致严重的系统性对齐偏差。我们认为这源于评估者的反馈依赖于受AI输出影响的下游结果预测（前瞻），从而引发Goodhart定律动态。相反，我们的理论分析表明，将评估者的反馈基于下游观察（后知）来调整，可以抑制这种效果，通过解耦对齐信号与可能被破坏的预测，至关重要的是，即使观察到的结果是从AI自身的世界模型中抽样产生的，该结果依然成立。基于这一洞察，我们引入了后知模拟强化学习（RLHS），在呈现可能的模拟结果给评估者之前，收集反馈。我们展示了RLHS在在线（PPO）和离线（DPO）大型语言模型微调中的应用，在受控的咨询类型实验和用户研究中，RLHS优于RLHF，实现了更好的对齐。我们在TruthfulQA基准上进行事后评估发现，即使在单一任务微调后，RLHF的对齐偏差和RLHS的对齐也延续到了截然不同的环境中。