LLM2D

摘要

arXiv:2502.00666v1 宣告类型: cross 摘要：人类反馈强化学习（RLHF）已成为大型语言模型（LLM）对齐的关键技术。本文研究了在线RLHF的设置，并着重于提高样本效率。在在线RLHF的所有现有算法中，无论是进行被动探索还是主动探索，都存在一个基本限制：样本复杂度随奖励函数规模呈指数增长。这一根本限制阻碍了它们在高度偏斜偏好场景中的有效性，例如具有唯一正确答案的问题。为解决这一问题，我们引入了自探索偏好激励在线偏好优化（SE-POPO）算法，这是首次实现样本复杂度随着奖励规模呈多项式增长，从而解决了Xie等人（2024）提出的一个开放问题。理论上，我们证明了SE-POPO的样本复杂度优于现有探索算法。实验上，系统评估证实，SE-POPO在RLHF的两种主要应用场景以及公共基准上都比探索性和非探索性基线更有效，标志着RLHF算法设计的一大进步。