LLM2D

摘要

arXiv:2501.06416v2 更新类型: 交叉替换摘要: 设计一种从人类反馈中强化学习（RLHF）的算法以逼近人类不可观测的奖励函数，需要隐含或明确地假设一个人类偏好的模型。如果偏好模型不能很好地描述人类如何生成偏好，那么就有可能学到一个不理想的对人类奖励函数的近似。本文中，我们进行了三项人类研究，以评估是否可以通过影响人类真实偏好的表达，使其更接近于某种期望的偏好模型。重要的是，我们的方法并不旨在改变人类的不可观测奖励函数。而是改变人类使用该奖励函数来生成偏好的方式，以使其更好地与某个特定RLHF算法所假设的偏好模型相匹配。我们引入了三种干预措施：向人类展示构成偏好模型的基础量，这些通常是从奖励函数中推导出的不可观察信息；训练人们遵循特定的偏好模型；以及修改偏好获取问题。所有类型的干预措施都显示出显著效果，提供了改进偏好数据质量和由此产生的学习奖励函数与期望对齐程度的实际工具。总的来说，我们确立了一个新的研究方向：设计界面和训练干预措施，以增加人们对将学习其输入算法的建模假设的符合程度。