摘要
arXiv:2405.19320v4 公告类型: 替换-交叉
摘要:人类反馈强化学习(RLHF)在使大型语言模型(LLMs)与人类偏好保持一致方面展现出了巨大的潜力。根据可用的偏好数据,线上和离线RLHF都是活跃的研究领域。一个主要瓶颈是如何在从偏好数据中学习奖励函数时理解如何集成不确定性估计,无论偏好数据是如何收集的。虽然在标准强化学习(RL)中,乐观或悲观的基本原则已经确立,但适用于大型语言模型的、可实践实施且理论依据充分的形式尚未出现,因为在任意策略参数化下,标准建立置信区间的技术变得难以处理。
在本文中,我们介绍了一种统一的线上和离线RLHF方法——价值激励偏好优化(VPO),它用相应的价值函数正则化最大似然估计的奖励函数,并通过一个“符号”来调节是选择乐观还是悲观。VPO 直接对策略进行优化,采用隐式的奖励建模,并因此共享与直接偏好优化类似的简单RLHF管道。VPO 在线上和离线设置中的理论保证与标准RL的对应者相匹配。此外,在文本摘要和对话实验中验证了VPO的实用性和有效性。