LLM2D
基于主动查询的人工反馈强化学习
Reinforcement Learning from Human Feedback with Active Queries
作者: Kaixuan Ji, Jiafan He, Quanquan Gu
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2402.09401v2

摘要

arXiv:2402.09401v2 宣布类型: replace-cross 摘要:使大规模语言模型(LLM)与人类偏好对齐在构建现代生成模型中发挥着关键作用,并可以通过人类反馈强化学习(RLHF)实现。尽管当前的RLHF方法表现出色,但它们往往需要大量的带标签的人类偏好数据,这非常昂贵且难以收集。在本文中,受主动学习成功的启发,我们通过提出查询高效的方法来解决这个问题。我们首先将对齐问题正式化为上下文对集多臂赌博机问题,并设计一种基于主动查询的接近策略优化(APPO)算法,该算法具有实例依赖的$\tilde{O}(d^2/\Delta)$遗憾上界和$\tilde{O}(d^2/\Delta^2)$查询复杂度,其中 $d$ 是特征空间的维度,$\Delta$ 是所有上下文下的次优差距。然后,我们提出了一种基于直接偏好优化(DPO)的实用版本ADPO算法,并将其应用于LLM的微调。我们的实验证明,尽管ADPO只约半数人类偏好查询,但其性能仍与最先进的DPO方法相当。