LLM2D

摘要

本文关注强化学习从人类反馈（RLHF）的成本效益问题。RLHF 利用大型语言模型（LLM）输出的人类偏好数据集，将人类期望灌输到 LLM 中。虽然偏好标注存在货币化成本，但迄今为止，偏好数据集的经济效用尚未得到考虑。加剧这种情况的是，鉴于偏好数据集中存在复杂的非传递或循环关系，现有的用于微调 LLM 的算法仍然远未能够捕捉到全面的偏好。这在生产环境中引发了严重的成本效益问题，因为偏好数据会随着时间的推移而累积。在本文中，我们将 LLM 的微调视为一个货币化经济，并引入了一种拍卖机制来提高偏好数据收集的美元效率。我们证明，引入拍卖机制可以在保持令人满意的模型性能的同时，在增强 RLHF 的成本效益方面发挥重要作用。实验结果表明，我们提出的基于拍卖的协议通过集中关注高质量反馈，在微调 LLM 方面具有成本效益。