LLM2D
通过基于偏好的探索规避RLHF中的$\mathbf{exp(R_{max})}$scalingffect
Avoiding $\mathbf{exp(R_{max})}$ scaling in RLHF through Preference-based Exploration
作者: Mingyu Chen, Yiding Chen, Wen Sun, Xuezhou Zhang
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.00666v2

摘要

arXiv:2502.00666v2 公告类型: 代换-交叉 摘要: 通过人类反馈的强化学习(RLHF)已成为大型语言模型(LLM)对齐的关键技术。本文研究了在线RLHF的设置,并关注于提高样本效率。目前所有在线RLHF中的算法,无论是进行被动探索还是主动探索,都遭受了一个随着奖励函数规模指数增长的样本复杂性限制。这一基本限制阻碍了它们在偏好严重偏斜的情景下的有效性,例如那些有唯一正确答案的问题。为了解决这一问题,我们提出了自我探索的偏好激励在线偏好优化(SE-POPO)算法,这是首次实现了样本复杂性与奖励规模成多项式关系的在线RLHF算法,解决了Xie等人(2024)提出的一个开放问题。从理论上讲,我们证明了SE-POPO的样本复杂性优于现有探索算法。从实验上讲,我们系统性的评估证实了在RLHF的两个主要应用场景以及公共基准测试中,SE-POPO比探索性和非探索性基线更高效,标志着RLHF算法设计的一个重要进展。代码已发布在 https://github.com/MYC000801/SE-POPO。