LLM2D

摘要

arXiv:2402.09401v2 宣布类型: replace-cross 摘要:使大规模语言模型（LLM）与人类偏好对齐在构建现代生成模型中发挥着关键作用，并可以通过人类反馈强化学习（RLHF）实现。尽管当前的RLHF方法表现出色，但它们往往需要大量的带标签的人类偏好数据，这非常昂贵且难以收集。在本文中，受主动学习成功的启发，我们通过提出查询高效的方法来解决这个问题。我们首先将对齐问题正式化为上下文对集多臂赌博机问题，并设计一种基于主动查询的接近策略优化（APPO）算法，该算法具有实例依赖的$\tilde{O}(d^2/\Delta)$遗憾上界和$\tilde{O}(d^2/\Delta^2)$查询复杂度，其中 $d$ 是特征空间的维度，$\Delta$ 是所有上下文下的次优差距。然后，我们提出了一种基于直接偏好优化（DPO）的实用版本ADPO算法，并将其应用于LLM的微调。我们的实验证明，尽管ADPO只约半数人类偏好查询，但其性能仍与最先进的DPO方法相当。