LLM2D

摘要

arXiv:2502.00666v2 公告类型: 代换-交叉摘要: 通过人类反馈的强化学习(RLHF)已成为大型语言模型(LLM)对齐的关键技术。本文研究了在线RLHF的设置，并关注于提高样本效率。目前所有在线RLHF中的算法，无论是进行被动探索还是主动探索，都遭受了一个随着奖励函数规模指数增长的样本复杂性限制。这一基本限制阻碍了它们在偏好严重偏斜的情景下的有效性，例如那些有唯一正确答案的问题。为了解决这一问题，我们提出了自我探索的偏好激励在线偏好优化(SE-POPO)算法，这是首次实现了样本复杂性与奖励规模成多项式关系的在线RLHF算法，解决了Xie等人(2024)提出的一个开放问题。从理论上讲，我们证明了SE-POPO的样本复杂性优于现有探索算法。从实验上讲，我们系统性的评估证实了在RLHF的两个主要应用场景以及公共基准测试中，SE-POPO比探索性和非探索性基线更高效，标志着RLHF算法设计的一个重要进展。代码已发布在 https://github.com/MYC000801/SE-POPO。