LLM2D

摘要

arXiv:2501.19266v1 宣告类型: 新闻摘要: 人类反馈强化学习 (RLHF) 是使大语言模型 (LLMs) 与人类价值观对齐的标准方法，但已知无法满足一些直观上 desirable 的性质，例如尊重大多数人的偏好 [ge2024axioms]。为了解决这些问题，我们提出使用一种称为“最大彩票”的概率社会选择规则来替代 RLHF。我们展示了这样一种对齐技术家族，即纳什人类反馈强化学习 (NLHF) [munos2023nash] 及其变体，近似于最大彩票的结果，从而继承了其有益的特性。我们通过实验确认，我们提出的方法比标准的 RLHF 更 robust 地处理与偏好相关的情况，包括支持大多数人的偏好，提供处理偏好数据中非传递性的方式，并且对无关选择具有鲁棒性。这导致了更好地纳入人类价值观并尊重人类意图的系统。