摘要
本文关注强化学习从人类反馈(RLHF)的成本效益问题。RLHF 利用大型语言模型(LLM)输出的人类偏好数据集,将人类期望灌输到 LLM 中。虽然偏好标注存在货币化成本,但迄今为止,偏好数据集的经济效用尚未得到考虑。加剧这种情况的是,鉴于偏好数据集中存在复杂的非传递或循环关系,现有的用于微调 LLM 的算法仍然远未能够捕捉到全面的偏好。这在生产环境中引发了严重的成本效益问题,因为偏好数据会随着时间的推移而累积。在本文中,我们将 LLM 的微调视为一个货币化经济,并引入了一种拍卖机制来提高偏好数据收集的美元效率。我们证明,引入拍卖机制可以在保持令人满意的模型性能的同时,在增强 RLHF 的成本效益方面发挥重要作用。实验结果表明,我们提出的基于拍卖的协议通过集中关注高质量反馈,在微调 LLM 方面具有成本效益。