摘要
arXiv:2501.19266v1 宣告类型: 新闻
摘要: 人类反馈强化学习 (RLHF) 是使大语言模型 (LLMs) 与人类价值观对齐的标准方法,但已知无法满足一些直观上 desirable 的性质,例如尊重大多数人的偏好 [ge2024axioms]。为了解决这些问题,我们提出使用一种称为“最大彩票”的概率社会选择规则来替代 RLHF。我们展示了这样一种对齐技术家族,即纳什人类反馈强化学习 (NLHF) [munos2023nash] 及其变体,近似于最大彩票的结果,从而继承了其有益的特性。
我们通过实验确认,我们提出的方法比标准的 RLHF 更 robust 地处理与偏好相关的情况,包括支持大多数人的偏好,提供处理偏好数据中非传递性的方式,并且对无关选择具有鲁棒性。这导致了更好地纳入人类价值观并尊重人类意图的系统。